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张 觉 非 


本 科 毕 业 于 复旦 大 学 计算 机 系 ， 
于 中 国 科学 院 古 疹 椎 动物 与 
古人 类 研究 所 取得 古生物 学 硕士 学 位 ， 
目前 在 互联 网 行业 
从 事 机 器 学 习 算法 相关 工作 。 
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图 灵 社 区 的 电子 书 没有 采用 专 有 客 
户 端 ， 您 可 以 在 任意 设备 上 ， 用 自 
己 喜 欢 的 浏览 器 和 PDF 阅读 器 进行 
阅读 。 

但 您 购买 的 电子 书 仅 供 您 个 人 使 用 ， 
未 经 授权 ， 不 得 进行 传播 。 

我 们 愿意 相信 读者 具有 这 样 的 良知 
和 觉悟 ， 与 我 们 共同 保护 知识 产权 。 
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内 容 提 要 


本 书 以 神经 网 络 为 线索 ， 沿 着 从 线性 模型 到 深度 学 习 的 路 线 讲 解 神经 网 络 的 原理 和 实现 。 本 书 将 数学 
基础 知识 与 机 器 学 习 和 神经 网 络 紧 密 结合 ， 包 含 线 性 模型 的 结构 与 局 限 、 损 失 函 数 、 基 于 一 阶 和 二 阶 信息 
的 优化 算法 、 模 型 自由 度 与 正则 化 、 神 经 网 络 的 表达 能 力 、 反 向 传播 与 计算 图 自动 求 导 、 卷 积 神经 网 络 等 
主题 ， 帮 助 读者 建立 基于 数学 原理 的 较 次 刻 的 洞 见 和 认 知 。 本 书 还 提供 了 逻辑 回归 、 多 层 全 连接 神经 网 络 
和 多 种 训练 算法 的 Python 实现， 以 及 运用 TensorFlow 搭建 和 训练 多 种 卷 积 神经 网 络 的 代码 实例 。 

本 书 适合 渴望 加 深 对 神经 网 络 和 深度 学 习 原 理 理解 的 高 年 级 本 科 生 与 研究 生 、 广 大 程序 员 与 工程 师 ， 
以 及 对 机 器 学 习 的 原理 和 编程 实现 感 兴趣 的 所 有 读者 阅读 。 
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前 时 


近年 来 ， 深 度 学 习 的 浪 测 席 卷 了 学 术 界 和 产业 界 ， 它 强大 的 能 力 给 人 们 留 下 了 深刻 的 印象 。 
在 产业 界 ， 一 些 已 经 成 熟 应 用 机 器 学 习 技 术 的 领域 ， 如 计算 广告 、 推 荐 系统 、 机 器 视觉 、 自 然 语 
言 处 理 等 ,纷纷 尝试 深度 学 习 并 取得 了 良好 的 效果 。 各 个 尚未 应 用 机 器 学 习 的 领域 也 都 在 积极 进 
行 智能 化 的 尝试 。 男 外 ,开源 社区 贡献 的 众多 框架 、 工 具 和 平台 ,也 为 这 股 浪潮 推波助澜 。 可 以 
说 ， 机 器 学 习 ， 尤 其 是 神经 网 络 与 深度 学 习 ， 是 当今 最 被 寄 耶 厚望 的 技术 。 


不 论 这 股 浪潮 将 止 于 何人 处 ， 也 不 论 它 最 终 能 否 达 到 人 们 的 期 许 ， 机 咒 学 习 的 思想 都 已 经 深 深 
植 和 人 了 人 们 的 心中 。 在 工程 和 业务 实践 中 ， 将 数据 和 建 模 纳入 解决 方案 已 是 一 种 常规 做 法 。 机 器 
学 习 已 成 为 工程 师 武 需 库 中 一 个 重要 的 工具 , 越 来 越 多 工程 师 开 始 尝 试 了 解 和 应 用 机 噩 学习 技术 。 


但 是 人 们 会 发 现 , 机 器 学 习 有 着 艰 次 的 理论 背景 ， 不 能 透彻 理解 原理 ， 就 难以 在 实践 中 自由 
地 运用 。 当 人 们 试图 进入 机 天 学 习 领 域 时 ,数学 原理 是 横 吾 在 面前 的 一 座 大 山 。 笔 者 通过 自身 经 
历 以 及 与 他 人 的 交流 , 深切 体会 到 , 广大 学 生 和 工程 师 在 基础 理论 知识 的 理解 和 运用 上 普遍 有 所 
欠缺 ， 这 给 他 们 理解 机 器 学 习 的 原理 制造 了 障碍 。 


举 个 例子 , 对 于 梯度 和 链 式 法 则 , 许多 人 只 能 在 一 元 函数 情况 下 理解 , 大 量 文 章 和 书籍 也 都 
只 在 一 元 情况 下 做 浅 尝 辑 止 的 讲解 。 而 当 人 们 阅读 代码 时 , 会 发 现 其 中 满 是 矩阵 和 向 量 。 原 理 与 
实现 之 间 仿 佛 弥漫 着 一 团 迷 筋 ,不 穿 透 这 团 迷 筋 ， 对 这 些 概 念 的 理解 就 只 能 是 浮光掠影 、 隔 就 拖 
痒 。 笔 考 曾 读 到 有 文章 将 梯度 下 降 的 矩阵 实现 称 为 “向 量化 "。 其 实 何须 向 量化 ， 多 元 函数 的 梯 
度 与 求 导 原本 就 是 用 矩阵 和 向 量 语 言 来 描述 的 。 


再 比如 , 神经 网 络 与 深度 学 习 的 火热 虽然 给 机 器 学 习 这 门 学 科 带 来 进步 和 活力 , 但 是 也 给 人 
们 造成 一 个 错误 的 印象 , 即 它 是 全 新 的 、 颠 覆 性 的 、 与 传统 割裂 的 。 其 实 神经 网 络 与 深度 学 习 深 


一 所 


用 


二 | 


深 扎根 于 传统 机 带 学 习 之 中 。 读 者 可 以 看 到 ,本 书 的 


大 量 篇 幅 都 在 讲解 线性 模型 ， 这 是 因为 神经 


网 络 与 深度 学 习 的 结构 和 训练 方法 都 扎根 于 线性 模型 之 中 。 


目标 读者 
笔者 遇 到 过 不 少 理 工科 相关 专业 的 工程 师 , 他 们 


学 习 过 微 积分 、 线 性 代数 和 概率 论 等 基础 课 


程 ， 但 是 对 这 些 知 识 的 理解 尚 没有 了 融会贯通， 不知 如 何 运 用 ， 而 且 搁 置 多 年 ,遗忘 严重 。 还 有 一 
些 高 年 级 本 科 生 和 研究 生 感觉 各 门 基 础 课程 仿佛 是 分 散 的 、 孤 立 的 ， 不 理解 它们 的 联系 和 用 途 。 


本 书 的 目标 就 是 帮助 这 些 读者 回忆 并 夯实 基础 知识 ， 
学 习 的 原理 。 


深入 理解 机 咒 学 习 , 特别 是 神经 网 络 和 深度 


本 书 以 神经 网 络 为 线索 , 沿 着 从 线性 模型 到 深度 学 习 的 路 线 ， 串 起 核心 知识 点 。 数 学 内 容 在 
必要 和 恰当 的 时 机 引入 ,从 基础 讲 起 , 不 留 黑 盒 。 具 有 理工 科 背 景 的 读者 能 够 容易 地 回忆 起 相关 
知识 ， 而 不 需要 再 回头 求 诸 于 大 部 头 教科 书 。 本 书 内 容 取 舍 有 当 ， 紧 紧 围 绕 主 题 , 使 读者 能 将 数 


学 与 它 在 机 带 学 习 中 的 应 用 紧密 结合 起 来 。 


本 书 试图 帮助 读者 打通 关节 ， 提 高 视角 ， 加 深 洞 见 ， 做 到 知 其 然 并 知 其 所 以 然 。 在 当今 人 工 
智能 时 代 ,， 新 方法 不 断 涌现 , 新 工具 层出不穷 , 但 是 万 变 不 离 其 宗 , 新 的 方法 和 工具 都 深 深 扎根 


于 原理 之 中 。 把 众多 方法 比 作 岛 屿 ， 在 水 面 之 下 看 ， 


大 大 小 小 的 岛屿 就 不 再 是 扳 立 的 、 个 别 的 ， 


它们 都 建筑 于 基 岩 之 上 ， 基 岩 就 是 机 带 学 习 的 基础 理论 。 掌握 了 基础 理论 , 就 可 以 对 各 种 方法 形 
成 统一 而 深刻 的 洞 见 , 在 工程 实践 中 拥有 坚实 有 效 的 理论 依据 , 并 能 够 快速 理解 和 运用 业界 新 涌 


现 的 众多 方法 和 工具 。 
具体 来 说 ， 本 书 适合 以 下 几 类 读者 : 


口 渴望 进入 这 一 领域 的 高 年 级 本 科 生 和 研究 生 
学 习 和 神经 网 络 结合 起 来 ， 深 入 理解 原理 ; 


， 本 书 帮 助 这 类 读者 将 数学 基础 知识 与 机 器 


口 希望 了 解 神经 网 络 与 机 器 学 习 的 广大 程序 员 与 工程 师 ， 这 类 读者 需要 花 更 多 一 些 力气 回 
忆 数 学 知识 ， 本 书包 含 了 他 们 需要 的 全 部 知识 点 ; 

口 对 模型 的 编程 实现 感 兴趣 的 读者 ， 本 书包 含 逻 辑 回归 、 多 层 全 连接 神经 网 络 以 及 各 种 训 
练 算 法 的 Python 实现 ， 可 供 这 类 读者 学 习 和 参考; 
口 业界 的 机 器 学 习 、 数 据 挖掘 工程 师 ， 本 书 关于 模型 原理 的 高 级 主题 ， 特 别 是 关于 模型 自 


由 度 与 偏 置 -方差 权衡 方面 的 内 容 ， 可 为 他 们 提供 一 些 有 趣 的 洞 见 。 


明确 本 书 不 包含 的 内 容 以 及 不 适合 的 读者 同样 重要 ， 以 下 是 本 书 不 涉及 的 内 容 : 


vi 前 言 


口 本 书 围绕 着 神经 网 络 这 个 主题 ， 并 涵盖 了 机 器 学 习 学 科 的 相当 一 部 分 重点 内 容 ， 但 并 不 
涵盖 机 器 学 习 的 全 部 领域 ; 

口 本 书包 括 逻辑 回归 、 多 层 全 连接 神经 网 络 以 及 多 种 训练 算法 的 Python 实现 ， 但 书 中 代码 
实现 的 目的 是 为 了 理解 原理 ， 本 书 并 不 是 一 本 实现 各 类 机 器 学 习 模型 的 指南 ; 

口 本 书包 含 使 用 TensorFlow 搭建 并 训练 模型 的 实例 ， 但 本 书 远 远 不 是 一 本 TensorFlow 的 实 
用 教材 ; 

D 本 书 从 原理 上 讲解 了 模型 超 参 数 、 自 由 度 、 过 拟 合 与 欠 拟 合 等 概念 ， 但 本 书 并 非 关 于 调 
参 和 优化 模型 的 实践 指南 ， 也 不 包含 特征 预 处 理 、 特 征 工 程 等 方面 的 内 容 ; 

口 本 书 以 卷 积 神经 网 络 为 例 讲解 深度 学 习 ， 涵 盖 了 训练 深度 神经 网 络 的 方法 、 问 题 以 及 技 
术 , 但 本 书 并 不 包含 深度 学 习 众多 五 花 八 门 的 新 应 用 领域 和 网 络 结 构 。 


内 容 概览 


本 书 沿 着 从 线性 模型 到 神经 网 络 ， 再 到 深度 学 习 的 路 径 ， 层 层 递 进 ， 逐渐 深 入 。 这 是 一 条 从 
根 至 叶 、 自 简 和 人 索 的 天 然 路 径 。 各 章节 的 安排 如 下 。 


D 第 1 章 以 逻辑 回归 为 例 讲解 线性 模型 。 这 一 章 在 引入 逻辑 回归 的 定义 后 回顾 必要 的 向 量 几 

何 ， 使 读者 对 逻辑 回归 的 原理 、 特 性 和 局 限 形成 清晰 的 认识 。 

口 第 2 童 介绍 模型 训练 和 评价 的 基本 概念 ， 并 引入 损失 函数 。 损 失 函 数 将 模型 训练 问题 转化 
为 函数 优化 问题 。 这 一 章 以 交叉 焙 为 例 讲 解 损失 函数 ， 并 从 信息 论 、 贝 叶 斯 和 几何 特性 
三 个 角度 探究 交叉 精 的 原理 。 

口 第 3 章 介 绍 基于 函数 局 部 一 阶 信息 的 优化 算法 。 这 一 章 首 先 回顾 多 元 函数 微分 的 相关 知识 
并 引入 梯度 概念 ， 接 着 讲解 梯度 下 降 法 及 其 变 体 ， 最 后 介绍 如 何 用 梯度 下 降 法 训练 逻辑 
回归 模型 。 

口 第 4 章 介 绍 基于 函数 局 部 二 阶 信息 的 优化 算法 。 这 一 章 首 先 回顾 矩阵 的 相关 知识 ， 接 着 
解 多 元 函数 的 赫 森 矩阵 ， 以 牛顿 法 和 共 箔 方向 法 为 例 介 绍 二 阶 优化 算法 ， 最 后 介绍 如 何 
用 牛顿 法 训练 逻辑 回归 模型 。 

口 第 5 章 首先 回顾 概率 论 相关 知识 ， 之 后 从 线性 回归 入 手 , 介绍 模 型 自由 度 、 正 则 化 和 偏 置 - 

方差 权衡 等 概念 ， 最 后 介绍 如 何在 逻辑 回归 的 训练 中 应 用 正则 化 。 

口 第 6 章 讲解 如 何 将 线性 模型 连接 成 网 络 以 克服 其 局 限 ， 并 介绍 多 层 全 连接 神经 网 络 。 

口 第 7 章 讲解 训练 多 层 全 连接 神经 网 络 的 反 向 传播 加 梯度 下 降 法 。 这 一 章 是 对 之 前 各 章节 知 
识 的 一 个 综合 ， 最 后 还 谈 到 了 训练 深层 网 络 所 面临 的 一 些 困 难 。 


口 第 8 章 介 绍 计算 图 和 自动 求 导 。 深 度 学 习 中 的 各 种 网 络 具 有 比 多 层 全 连接 神经 网 络 复杂 得 

多 的 连接 方式 ， 而 计算 图 和 自动 求 导 是 搭建 和 训练 复杂 网 络 结构 的 有 力 工具 。 

口 第 9 章 介 绍 卷 积 神经 网 络 的 原理 、 结 构 和 训练 。 深 度 神经 网 络 五 花 八 门 ， 卷 积 神经 网 络 是 

其 中 最 典型 、 最 具 代 表 性 的 一 种 。 理 解 了 卷 积 神经 网 络 及 其 训练 ， 也 就 能 够 理解 其 他 各 

种 深度 神经 网 络 。 

第 10 章 介绍 了 5 种 经 典 的 卷 积 神经 网 络 ， 介 绍 它们 的 结构 和 性 能 ， 最 后 简单 讨论 卷 积 神 

经 网 络 结构 的 发 展演 化 趋势 。 

口 第 11 章 展 示 如 何 使 用 TensorFlow 搭建 和 训练 本 书 提 到 的 几 种 主要 模型 ， 并 将 它们 用 于 手 

写 数字 识别 。 

在 附录 中 ， 我 们 尝试 在 卷 积 神经 网 络 和 元 胞 自动 机 之 间 建 立 联 系 ， 从 动力 学 角度 理解 
“深度 ”的 含义 。 元 胞 自动 机 是 一 类 计算 模型 ， 它 们 中 的 一 些 具备 图 灵 完 备 性 。 元 胞 自 

动机 的 计算 方式 与 卷 积 具有 相似 性 ， 这 一 章 从 元 胞 自动 机 的 动力 学 特性 的 视角 看 卷 积 神 

经 网 络 ， 和 希望 为 读者 提供 一 些 有 趣 的 洞 见 。 


口 
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口 数学 基础 过 硬 的 读者 可 以 略 过 1.2 节 、3.1 节 、4.1 节 、5$.1 节 和 7.1 节 ， 但 温习 一 下 总 是 有 
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口 熟悉 传统 机 器 学 习 ， 想 进一步 了 解 神经 网 络 和 深度 学 习 的 读者 ， 可 以 略 过 第 一 部 分 。 

口 对 于 第 4 章 ， 读 者 可 以 略 过 4.1 节 之 后 的 内 容 ， 因 为 后 续 章 节 没 有 用 到 二 阶 优化 算法 。 但 
4.1 节 回 顾 的 矩阵 知识 在 后 续 章 节 中 还 将 用 到 ， 且 非常 关键 。 


本 书 各 章节 组 成 一 个 有 机 的 整体 ， 而 并 非 孤 立 存在 。 本 书 路 线 图 中 的 知识 点 前 后 呼应 ， 能 ; 
读者 提供 一 些 有 趣 而 深刻 的 洞 见 。 所 以 ， 笔 者 强烈 建议 读者 按 顺 序 阅 读 全 部 内 容 。 


代码 与 网 络 资源 


读者 可 在 gite 
续 维护 和 扩展 这 个 代码 库 。 笔 者 在 知 乎 开设 了 专栏 “ 
以 后 将 继续 在 专栏 中 讨论 和 分 享 本 书 相 关 主 题 。 鉴 于 笔者 水 平 有 限 ,错误 难免 ,欢迎 读者 来 信 
正 ， 邮 箱 是 zhangjuefei83@163.com。 
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逻辑 回归 


院 性 . 级 性 模型 是 许多 E 线 | 隆 俩 理 的 基础， 已 它 恨 好 的 数学 结构 能 够 为 理解 非 线 
性 重型 提供 深刻 的 洞 见 。 人 工 神经 网 络 的 基本 组 成 单元 一 一 神经 元 , 正 是 线性 模型 。 本 章 将 介绍 
一 种 常用 的 线性 模型 一 一 逻辑 回归 : 首先 引入 逻辑 回归 的 定义 ， 2 回顾 必要 的 线性 代数 知识 ， 
并 从 几何 角度 阐述 逻辑 回归 及 所 有 线性 模型 的 能 力 局 限 。 


1.1 作为 一 个 神经 元 的 逻辑 回归 


我 们 以 逻辑 回归 ( logistic regression ) 为 例 讨 论 线性 模型 。 假 如 样本 由 ?个 数值 型 特征 
XXX2 2Xn 组 成 ， 则 逻辑 回归 的 计算 式 是 : 


1 1 
fa Xn) = Tr or we) (1.1) 


其 中 ，e 是 自然 对 数 的 底 。 式 (1.1 ) 将 各 个 特征 x; 乘 以 对 应 的 权重 系数 wi 后 相 加 ， 之 后 再 加 上 4b， 
b 称 作 偏 置 (bias )。 这 种 计算 称 为 关于 xj,x2,… ,xn 的 仿 射 函数 ( affine function ), 仿 射 函数 的 值 a 
如 下 : 


a = b+ wixi (1.2) 
接 下 来 ， 逻 辑 回归 对 仿 射 函 数 的 值 a 施 加 Logistic 函数 : 


Logistic(a) = 一 -一 (1.3 ) 


1+e™® 
Logistic 函数 的 图 像 是 一 条 S 形 曲 线 (也 称 sigmoid 曲线 )。 当 a 趋 向 于 负 无 穷 时 ， 函 数值 趋 
向 于 0; 当 a 趋 向 于 正 无 穷 时 ， 拯 数值 趋向 于 1。Logistic 的 函数 值 在 (0,1) 内 ， 当 a = 0 时 ， 拯 数 
值 是 0.5， 如 图 1-1 所 示 。 


1.1 作为 一 个 神经 元 的 逻辑 回归 3 


Logistic(a) 


图 1-1 Logistic 函数 的 图 像 


在 二 分 类 问题 中 ， 用 m 个 数值 型 特征 表示 一 个 样本 ， 例 如 用 体重 、 身 高 和 年 龄 表示 一 个 人 。 
这 些 样本 属于 两 个 互 斥 的 类 别 一 一 正 类 ( positive ) 或 负 类 ( negative ),。 逻辑 回归 的 输出 值 可 视 作 


样本 属于 正 类 的 概率 p,: 


4 二 
pp 1+e-o 三 1+e-(P+EE1 wixi) ( 1.4) 


yi FE 二 


因为 样本 必 属 于 正 类 或 负 类 之 一 ,而且 不 能 既 属 于 正 类 又 属于 负 类 , 所 以 样本 属于 正 类 的 概 
率 与 属于 负 类 的 概率 之 和 为 1， 于 是 样本 属于 负 类 的 概率 pn 就 是 : 


> (1.5) 


1 
pn=1 Pp 一 1+e-Q& 1+te-a 


pp 与 pn 之 比 的 对 数 〈 除非 特殊 说 明 ， 本 书 中 对 数 都 以 e 为 底 ) 是 : 


p 1 1+e-o 
log— =10g8 二 ea J- = logea =a= b+ wx (1.6) 


可 见 , 逻辑 回归 模型 中 两 类 别 的 对 数 概 率 比 是 关于 特征 的 仿 射 函 数 。 我 们 可 以 根据 概率 判定 
样本 类 别 ， 如 果 规 定 当 pp > 2， 即 呈 > 1 时 ， 将 样本 判定 为 正 类 ， 那 么 根据 式 〈1.6 ) 有 : 


a=log > log1=0 (1.7) 


也 就 是 说 ， 以 ;为 概率 阔 值 时 ， 预 测 类 别 取 决 于 a: a 大 于 等 于 0 时 ， 预 测 为 正 类 ， 和 否则 预测 
为 负 类 。a 大 于 0 有 什么 几何 意义 ? 逻辑 回归 为 什么 属于 线性 模型 ? 答案 将 在 下 文 揭晓 。 在 那 之 
前 ， 我 们 先 看 看 逻辑 回归 的 一 种 图 示 ， 如 图 1-2 所 示 。 
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X1 八 
Wi1 
X2 ~- w2 
a Logistic y 
Wn 
Ee b 


图 1-2 逻辑 回归 的 神经 元 表示 


1-2 表达 的 就 是 逻辑 回归 : 将 输入 值 加 权 求 和 再 加 偏 置 之 后 施加 Logistic 函数 。 在 人 工 神 
经 网 络 〈 本 书后 面 会 省 略 “ 人 工 ” 二 字 ) 语 境 下 ， 这 个 结构 就 是 一 个 神经 元 。 这 里 的 Logistic 函 
数 称 为 激活 函数 (activation function )。 除 了 Logistic 困 数 外 ， 还 有 许多 其 他 种 类 的 激活 函数 ， 例 
如 阶 跃 函数 : 


0 X<0 


fc =| (1.8) 


1, x 三 0 


以 阶 跃 函 数 为 激活 函数 的 神经 元 是 最 早 的 神经 元 模型 一 一 感知 机 ( perceptron )。 感知 机 这 个 
名 称 一 直流 传 下 来 ， 以 至 于 今天 多 层 全 连接 神经 网 络 还 被 称 为 多 层 感 知 机 ( multilayer perceptron， 
MLP )。 关 于 激活 函数 的 类 型 和 性 质 ， 第 6 章 还 有 阐述 。 无 论 取 哪 种 激活 函数 ， 神 经 元 的 基本 结 
构 都 是 仿 射 函数 加 激活 函数 。 


1.2 ”基础 向 量 几 何 


申 经 元 是 神经 网 络 乃 至 深度 学 习 的 基石 , 在 深入 考察 神经 元 的 能 力 和 局 限 之 前 ,， 有 必要 回顾 
一 下 基础 的 向 量 几 何 。 本 节 概 述 向 量 知识 。 像 这 样 介绍 数学 基础 的 小 节 会 在 书 中 多 次 出 现 , 它们 
穿 搬 在 章节 之 中 ， 紧 密 与 主题 结合 ， 可 以 帮助 读者 回忆 相关 知识 点 ,加深 理 解 。 昌 是 概览 ， 但 本 
书 对 数学 内 容 的 介绍 会 尽量 做 到 穷 根 究 底 ， 不 留 黑 盒 ， 每 一 个 结论 都 给 出 说 明 。 


zp 


1.2.1 向 量 


一 个 包含 n 个 数值 型 特征 x1,x2,… ,xn 的 样本 可 用 n 维 向 量 表示 : 


X1 
Xx 

$s | (1.9) 
Xn 


本 书 用 黑 斜 体 小 写字 母 表 示 向 量 , 例如 x 和 y。 斜体 小 写字 母 表示 标量 ( 实数 )， 例 如 a、b 或 
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X。 用 脚 标 表 示 向 量 的 分 量 ， 例 如 xz 表示 向 量 x 的 第 2 个 分 量 。 用 上 标 表示 一 组 对 象 中 的 某 一 个 ， 
例如 xs 表示 一 组 向 量 中 的 第 3 个 。 样 本 有 多 少 特 征 ，x 就 有 多 少 分 量 。? 是 向 量 的 分 量 个 数 ， 称 为 
向 量 的 维 数 。 本 书 中 向 量 专 指 列 向 量 〈 其 分 量 竖 着 排列 ) 有 时 为 了 节省 空间 ， 把 列 向 量 写成 行 
向 量 的 转 置 ， 如 式 〈1.9 )。 转 置 就 是 将 行 向 量变 成 列 向 量 ， 或 将 列 向 量变 成 行 向 量 。 


EN X1 

x Xx 

2 三 (0205 (X1,X2, Xn) = 3 (1.10) 
Xn Xn 


为 了 方便 查看 ， 本 节 以 2 维 或 3 维 向 量 为 例 来 介绍 。 现 实 问题 中 向 量 的 维 数 会 远 远 超 过 3， 
但 是 本 节 的 理论 结果 可 以 扩展 到 任意 维 数 。 


如 果 将 各 个 分 量 看 作 坐 标 值 ， 那 么 向 量 x 可 以 表示 坐标 系 上 的 一 个 点 (point )。 向 量 x 也 可 以 
看 作 从 原点 指向 这 个 点 的 一 个 有 长 度 和 方向 的 “箭头 ”。 向 量 包含 方向 和 长 度 这 两 个 信息 ， 点 
和 箭头 都 是 向 量 的 几何 表现 形式 ， 如 图 1-3 所 示 。 论 述 中 可 根据 讨论 视角 的 不 同 采 用 不 同 的 表现 


形式 o 


图 1-3 ”向量 的 几何 表示 
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1.2.2 向量 的 和 、 数 乘 与 零 向 量 
向 量 可 以 求 和 。 令 x 和 y 是 两 个 维 数 相同 的 向 量 ， 它 们 的 和 x + y 是 一 个 向 量 : 


X1 1 X1 十 y1 
X 十》 三 十 一 0 (1.11) 
Xn Yn Xn 十 Yn 
X 十 y 的 各 分 量 是 xX 和 y 的 对 应 分 量 之 和 。 如 果 用 “箭头 ”表示 向 量 , 那么 x + y 是 以 x 和 ?7 为 邻 
边 组 成 的 平行 四 边 形 的 对 角 线 ， 从 原点 指向 相对 的 顶点 。 该 顶点 也 就 是 向 量 x + y 表 示 的 点 ， 如 
图 1-4 所 示 。 
x+y=(3,4)T 
X=(2,1) 
卡 站 -2 4 Xl 
图 1-4 向量 和 的 几何 表示 
用 一 个 标量 (实数 ) k 乘 以 一 个 向 量 ， 即 癌 量 的 数 乘 。 定 义 kx 为 : 
kx1 
kx =| “2 (1.12) 


kxn 
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向 量 数 乘 的 几何 意义 是 对 向 量 的 长 度 进 行 缩放 。 用 2 乘 以 向 量 x 得 到 2x，2x 与 x 方向 相同 ， 
长 度 是 x 的 2 倍 。 向 量 的 数 乘 如 图 1-5 所 示 。 


-2x=(42j 
KZ(2,1) 
-6 


a 


—3x=(-3, —1.5)T 


图 1-5 向 量 的 数 乘 一 一 缩放 


用 0 乘 以 任何 向 量 得 到 “ 零 向 量 ”: 
Ox1 0 
o=0xx=| 9 -9 (1.13) 


零 向 量 是 坐标 系 原点 。 我 们 很 容易 看 出 ， 零 向 量 与 任何 向 量 相 加 都 得 到 该 向 量 本 身 。 如 果 用 
-1 乘 以 向 量 x， 得 到 : 


一 X1 
一 X2 


(—1) xx = 一 X = (1.14 ) 


=Xn 


显然 ,一 x 与 x 相 加 得 到 零 向 量 。 用 一 x 可 以 定义 癌 量 的 减法 : 
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y—xX=y+(-xX) (1.15) 


将 箭头 y 一 x 平移 , 使 其 尾部 与 Y 重 合 ， 头 部 与 y 重 合 , 则 y 一 x 构成 以 x 和 y 为 邻 边 的 三 角形 的 
第 三 边 ， 如 图 1-6 所 示 。 


yxX=y+(-X)=(-—1,2)" 


—x=(-2, 一 1)T 


图 1-6 向 量 的 差 一 一 三 角形 的 第 三 边 
向 量 有 长 度 ，2 维 向 量 的 长 度 是 : 
length(x) = Vx1? 十 X22 (1.16) 


这 个 长 度 是 向 量 与 原点 之 间 的 欧式 距离 。3 维 力 至 更 高 维 向 量 的 长 度 也 是 它们 与 原点 之 间 的 
欧 氏 距离 一 一 各 分 量 平方 和 的 平方 根 。 


1.2.3 ”向 量 的 内 积 、 模 与 投影 
向 量 x 和 y 的 内 积 (inner product ) 定义 为 : 


(X,Yy) = Di Xiyi (1.17) 


1.2 ”基础 向 量 几何 9 


X 和 7 的 内 积 就 是 将 x 和 7 的 对 应 分 量 相 乘 再 相 加 。 根 据 式 〈1.17 )，x 与 自身 的 内 积 是 : 


(2 X) = Di Xi (1.18) 


所 以 x 与 自身 的 内 积 一 定 大 于 等 于 0。 只 有 当 x 的 所 有 分 量 都 是 0， 即 x 为 零 向 量 时 ,x 与 自身 
的 内 积 才 为 0。 向 量 内 积 满足 交换 律 : 


(X,Yy) = (y, X) (1.19) 
向 量 内 积 对 向 量 加 法 满足 分 配 律 : 
(w,xX + y) = (w,X) + (w, y) (1.20) 
向 量 内 积 对 向 量 数 乘 满足 : 
(Kx, y) = (y, kx) = K(x, y) (1.21) 


以 上 三 条 定律 根据 向 量 内 积 的 定义 很 容易 证 明 ， 本 书 从 略 。 向 量 x 的 模 ||xl| 定 义 为 x 与 自身 的 
内 积 的 平方 根 : 


xl = V(X, xX) = VY x (1.22 ) 
可 以 看 出 ， 向 量 的 模 就 是 它 的 长 度 。 根 据 定 义 ，Kx 的 模 是 : 


lxxll = VE axe = VE Fes ez = Kx (1.23) 


根据 式 (1.23 )， 用 标量 量 二 乘 以 x， 得 到 的 向 量 训 的 长 度 是 1， 其 方向 与 Xx 一致 。 也 就 是 说 ， 


用 标量 i 浅 以 x 的 效果 是 保持 x 的 方向 不 变 ， 将 它 的 长 度 缩 放 到 1。 长 度 为 1 的 向 量 称 为 单位 向 


量 (unit vector )。 


对 于 2 维 或 3 维 的 情况 , 上 文 提 到 , y 一 Xx 经 过 平移 , 得 到 以 x 和 7 为 邻 边 的 三 角形 的 第 三 边 ， 
y 一 2X 的 模 就 是 第 三 边 的 长 度 。 三 角形 第 三 边 的 长 度 可 用 余弦 公式 求 得 。 假 如 三 角形 的 边 长 分 别 
是 a、b 和 c，a 和 b 之 间 的 夹 角 是 9， 则 c 是 : 


c*=a?*+b*—2abcos0 ( 1.24) 


当 g = 2 时 ， cosg = 0,， 式 (1.24 ) 就 是 毕 达 哥 拉 斯 定理 ( 色 股 定理 )。 将 三 角形 的 边 长 蔡 换 
为 向 量 的 模 ， 则 有 : 


ly — xll? = llxll? + llyll? ~ 2llxllllyll cos0 ( 1.25) 
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根据 模 的 定义 将 式 (1.25 ) 展开 ， 消 除 等 号 两 边 相同 项 ， 得 到 : 


(x,y) = |lxllllyll cos6 (1.26 ) 


式 (1.26 ) 说 明 : 向 量 zx 和 ?的 内 积 等 于 它们 的 长 度 之 积 再 乘 以 它们 之 间 夹 角 的 余弦 。 在 2 维 
或 3 维 的 情况 下 ， 向 量 之 间 的 夹 角 有 直观 的 定义 ， 这 时 运用 余弦 定理 得 到 式 〈1.26 )。 在 更 高 维 
的 情况 下 ， 向 量 的 夹 角 反 过 来 由 式 ( 1.26 ) 定义 。 如 果 向 量 x 和 y 的 内 积 为 0， 则 它们 之 间 夹 角 的 
余弦 是 0， 即 夹 角 9 是 >， 这 时 称 x 与 y 正 交 (orthogonal )。 零 向 量 与 任意 向 量 正 交 。 若 x 和 y 都 不 是 
零 向 量 ， 则 它们 的 箭头 互相 垂直 ， 如 图 1-7 所 示 。 


X=(2,2)" 


(x,y)=|Ixllllyllcose = 0 


6 十 3 


图 1-7 向 量 正 交 


如 果 x 和 y 之 间 的 夹 角 为 9， 那 么 ||x|l| cos 6 是 x 向 y 的 投影 的 长 度 ， 如 图 1-8 所 示 。 投 影 长 度 等 
于 从， 如 果 y 是 单位 向 量 ， 则 x 向 y 的 投影 的 长 度 就 等 于 (x, y)。 


lyll” 
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2) y=(4,2) 


{x,y) 
二 一 ||xllcos6 = Wr 
3 4 


图 1-8 向 量 投影 


如 果 把 列 向 量 看 作 n x 1 和 矩阵， 则 向 量 的 内 积 可 以 用 怎 阵 乘积 表示 (关于 矩阵 知识 的 详细 讲 
解 见 4.1 节 ): 


1 
(X,Y) = Pi Xiyi = (X1, X2 yn) 加 二 XI7y (1.27 ) 


多 数 时 候 ， 我 们 用 xTy 表 示 向 量 x 和 y 的 内 积 。 
1.2.4 ”线性 空间 、 基 与 线性 函数 
我 们 可 以 将 任何 一 个 n 维 向 量 x 分 解 : 


0 
于 0 = Dlxie' ( 1.28) 
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其 中 ，e! 是 n 维 向 量 , 它 的 第 i 维 分 量 是 1 ,其 余 分 量 都 是 0。 上 述 公 式 称 x 可 被 向 量 组 ei( i = 1,…,n ) 
线性 表 出 。 任 意 n 维 向 量 都 可 以 被 这 个 向 量 组 线性 表 出 ,但 任何 一 个 ei 都 无 法 被 该 向 量 组 中 的 其 
他 向 量 线性 表 出 。 如 果 一 组 向 量 中 的 任何 一 个 都 不 能 被 组 内 其 他 向 量 线性 表 出 , 则 称 这 组 向 量 是 
线性 独立 的 (linear independent )。 如 果 一 组 向 量 不 是 线性 独立 的 ， 则 称 它们 线性 相关 。 向 量 组 ei 
(i = 1,…,n) 是 线性 独立 的 。 


线性 独立 有 一 个 等 价 定 义 。 对 于 一 组 向 量 v1,v?,…,v"*， 如 果 不 存 在 一 组 不 全 为 0 的 系数 


HE 
wl1,w?,…,w" 满 足 


Yiwivi=0 (1.29 ) 


则 vi (i = 1,…,n) 是 线性 独立 的 。 我 们 来 证 明 这 个 结论 。 假 设 vi (i = 1,…,n ) 是 线性 独立 的 ， 
但 是 存在 一 组 不 全 为 0 的 系数 满足 式 (1.29 )。 如 果 w/ 二 0， 则 vw/ 就 可 以 被 其 他 向 量 线性 表 出 
， 即 wj = izj vt， 这 就 会 产生 矛盾 。 


如 果 不 存在 不 全 为 0 的 系数 满足 式 〈1.29 ), 但 是 vi (i = 1,…,n) 线性 相关 ， 那么 其 中 某 个 
向 量 v/ 可 以 被 其 他 向 量 线性 表 出 ， 即 v1 = izjw'v'。 于 是 有 一 v1 + izjw'v' = 0， 也 就 是 存在 
不 全 为 0 的 系数 满足 式 (1.29 )， 这 也 会 产生 矛盾 ， 所 以 两 种 线性 独立 的 定义 是 等 价 的 。 


如 果 一 组 向 量 v1,v?,…,V 可 以 被 男 一 组 向 量 w1,w?,…,w" 线性 表 出 , 并且 r < s， 那么 向 量 组 
vi (i = 1,…,s ) 是 线性 相关 的 。 我 们 来 证 明 这 个 结论 ， 每 一 个 向 量 vi 都 可 以 被 wi (j= 1…,r) 
线性 表 出 ， 即 vi = 7-1aw*wi。 如 果 有 一 组 系数 bp1,b?,… ,bs 满足 


Dbiv' = away = Davb ui=0 (1.30 ) 


若 要 式 (1.30 ) 成 立 ， 只 须 对 所 有 j = 1 ,rr ， 有 ?3 az 中 = 0 即 可 ， 这 是 一 个 方程 组 : 


avibpi1 十 Q21D2 十 … 十 as1bs = 0 
QL271 十 Q22 态 2 十 十 as’2bs = 0 ( 1.31 ) 
al7D1 十 a2702 十 … 十 as7D3 一 0 
这 个 方程 组 有 s 个 自 变量 、7r 个 方程 。 因 为 r < s， 方 程 数 小 于 自 变量 数 ， 所 以 这 个 方程 组 存 
在 非 全 零 解 ， 即 让 (i = 1,…,s ) 线性 相关 。 


如 果 一 个 向 量 集合 满足 “对 于 该 集合 中 任意 两 个 向 量 x 和 y, 以 及 任意 实数 a 和 5 ,向 量 ax + by 
仍 属于 该 集合 "， 则 该 集合 是 一 个 线性 空间 。 全 体 n 维 向 量 的 集合 是 一 个 线性 空间 ， 记 为 R*。 如 
果 一 个 线性 空间 中 的 所 有 向 量 都 可 以 被 k 个 线性 独立 的 向 量 线性 表 出 ， 则 称 这 组 向 量 为 该 线性 空 
间 的 基 ( basis )。 这 个 线性 空间 中 任何 多 于 k 个 向 量 的 向 量 组 必 线 性 相关 ,因为 它们 可 以 被 更 少 的 
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向 量 线性 表 出 。 任 何 少 于 K 个 向 量 的 向 量 组 必 不 能 线性 表 出 这 个 线性 空间 , 否则 那 组 上 个 向 量 的 基 
就 可 以 被 更 少 的 向 量 线性 表 出 ， 这 显然 不 可 能 。 也 就 是 说 ， 几 是 能 线性 表 出 该 线性 空间 ， 且 线性 
独立 的 向 量 组 都 只 能 有 k 个 向 量 , 不 多 不 少 。k 称 为 该 线性 空间 的 维 数 。e’ (i = 1,…,n) 是 RR" 的 
一 组 基 ， 称 为 标准 基 。R" 的 维 数 是 n。 


两 两 正 交 的 非 零 向 量 v1,v?,…,v* 一 定 是 线性 独立 的 ， 因 为 假如 存在 一 组 系数 wl,w?,…,w* 
满足 kiwivi = 0， 那 么 对 于 任何 一 个 j， 有 : 


(VT HE wivi = DE Wi 站 TI = wi(vi)Tvi = 0 ( 1.32) 


因为 vi 是 非 零 向 量 , 它 与 自己 的 内 积 不 为 0, 所 以 必 有 wi = 0。 这 对 所 有 j 都 成 立 , 即 w1,w?,…,w* 
都 只 能 是 0， 所 以 v1, v2?,…,v* 是 线性 独立 的 。 


现在 介绍 线性 函数 (linear function )。 如 果 函 数 f(x) 是 线性 的 ， 则 对 于 任意 两 个 向 量 xX 和 y 与 
任意 两 个 实数 a 和 b， 公 式 (1.33 ) 成 立 : 


flax+by)= af(x)+bf(y) (1.33 ) 
如 果 f(x) 是 线性 函数 ， 则 必然 存在 一 个 向 量 w 满 足 


f(x) = wix (1.34) 
也 就 是 说 ， 线 性 函数 一 定 等 于 某 个 向 量 w 与 输入 向 量 x 的 内 积 。 这 样 构造 向 量 w: 
fle') 
= 人 (1.35 ) 
fle") 
其 中 ，w 的 第 i 维 分 量 是 对 ei 施加 f (x) 后 得 到 的 值 。 由 于 f (x) 是 线性 函数 ， 有 : 
X1 
Fo =f Fixe) = Pexifle') = (fe'), fe’),, fle")) 昌 =wix (1.36) 
Xn 


这 就 证 明了 式 (1.34 ) 的 结论 。 线 性 函数 的 图 像 一 定 过 原点 ， 因 为 : 
f(0)=f(0xx)=0xf(x)=0 (1.37) 
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1.2.5 ”直线 、 超 平面 与 仿 射 函数 
对 于 向 量 w 了 0, 令 x 是 任意 与 w 的 内 积 为 常数 C 的 向 量 : 
wix = (w,x)= |wllllxllcos06=C (1.38) 


式 (1.38 ) 表明 ||x|| cos9 = -二 ， 即 x 向 w 的 投影 的 长 度 是 常数 -一 。 在 2 维 的 情况 下 ,将 x 看 


lwll7 lIwll 
作 平面 上 的 一 个 点 ， 则 所 有 满足 式 ( 1.38 ) 的 点 都 位 于 垂直 于 w 的 一 条 直线 上 ， 如 图 1-9 所 示 。 
X2 
Xa = (1,2)T w= (4,2)T 


Xb =(3, — 2)T 


图 1-9 2 维 空间 中 与 非 零 向 量 内 积 相 同 的 点 构成 垂直 于 该 向 量 的 直线 


在 3 维 空间 中 ， 所 有 与 向 量 w # 0 的 内 积 相同 的 点 ， 构 成 垂直 于 w 的 平面 ， 如 图 1-10 所 示 。 
在 更 高 维 空间 中 ， 这 样 的 点 构成 垂直 于 w 的 超 平面 (hyperplane )。 
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= = SW 二 w 
||xa|lcos6a = ||xpllcosOp = | 川 xcllcos6c ITwjJ ™ Twit Twil 


-2.0 


图 1-10 3 维 空间 中 与 非 零 向 量 内 积 相同 的 点 构成 垂直 于 该 向 量 的 平面 
直线 是 2 维 空间 中 的 超 平面 , 平面 是 3 维 空间 中 的 超 平面 。 我 们 将 直线 、 平 面 和 更 高 维 的 超 
平面 统称 为 超 平面 。w 称 为 超 平面 的 法 向 量 (norm )。 对 于 任意 非 零 实 数 上 ， 向 量 Aw 也 是 这 个 超 
平面 的 法 向 量 ， 因 为 该 超 平面 上 所 有 向 量 与 kw 的 内 积 也 相同 : 


(kw) x = (kw,x) = |klllwllllxll cos0 = Ik|C (1.39) 
前 文 曾 提 到 的 仿 射 函数 y， 重 新 写 在 这 里 : 
y =b + Pi wix (1.40) 
如 果 自 变量 是 2 维 ， 将 y 移 到 等 号 另 一 侧 ， 可 得 到 : 


X1 
WiX1 + WaXz 一 y = (Wi,wz,—1) (2 = 一 (1.41 ) 
了 


根据 式 (1.41 )， 在 xix2y 三 维 空间 中 ， 所 有 满足 式 ( 1.40 ) 的 点 与 向 量 w = (wu wz -1DT 的 
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内 积 为 常数 -b。 也 就 是 说 , 仿 射 函数 的 图 像 是 3 维 空间 中 的 一 张 平 面 。 该 平面 的 法 向 量 是 w。 当 
Xi = Xz = 0 时 ，y 的 值 是 bp，b 称 为 该 平面 的 截 距 。 由 式 (1.40 ) 可 以 看 出 , 仿 射 函数 是 线性 函数 
加 上 一 个 常量 b。 


在 3 维 情况 下 ， 若 w 和 w:? 的 绝对 值 较 大 ， 则 w 更 贴近 和 xz 平面， 以 w 为 法 向 量 的 平面 接近 竖 
立 ; 若 w; 和 wz 的 绝对 值 较 小 ， 则 w 更 贴近 y 轴 ， 以 w 为 法 向 量 的 平面 接近 水 平 。 平 面 的 倾斜 程度 
与 w 和 wz 的 绝对 值 大 小 有 关 ,， 也 就 是 与 向 量 (wi, w2) 的 模 有 关 。(wi,w2,0) 7 是 法 向 量 w 在 x1x2 平 
面 上 的 投影 ， 它 的 方向 决定 了 平面 的 朝向 。 图 1-11 集中 展示 了 这 几 个 概念 。 


法 向 量 : (0.1, 一 0.2, 一 1.0)T 法 向 量 : (0.4, 一 0.2, 一 1.0)T 
0 和 
25 5 
1.0 
s 
O02.0)" | | a (04 020) oo 了 
Tan | i T T 5 f F 本 | 
1.0 
5 
> 2 w=10:47 — 072, ~1)T -20 
2.0 
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法 向 量 : (1.2, 一 0.2, 一 1.0)7 法 向 量 : (1.6, 一 0.2, 一 1.0)T 


FE 
10 | 10 


05 4 05 
o0y | o0y 


El1.2, =0.2,0) 村 (1.6, =0,2,0)T -05 
” ss -10 > i 
: -15 78 上 Ss 
2.0 x 2 2.0 
了 区 
0.5 


W=(12, 20.2— DT 


w= (16, 一 0.27 一 1) 友 20 
1.5 


-15 1.0 -1 
15 20 -220 15 ,0 -2.0 


图 1-11 法 向 量 决定 平面 的 朝向 和 倾斜 程度 


仿 射 函数 是 一 类 最 简单 的 函数 , 它 的 图 像 在 自 变量 为 1 维 的 情况 下 是 直线 , 在 自 变 量 为 2 维 
的 情况 下 是 平面 ,在 更 高 维 情况 下 是 高 维 超 平面 。 超 平面 在 任意 位 置 的 性 质 都 相同 ,例如 2 维 平 
面 任意 位 置 的 朝向 和 倾斜 程度 都 相同 。 
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1.3 ”从 几何 角度 理解 逻辑 回归 的 能 力 和 局 限 


我 们 回忆 一 下 逻辑 回归 的 表达 式 : 


和 


OS ( 


b+2 了 1wixi) 1+e-(btwix) 


8 


司 


1 


(1.42) 


是 逻辑 回归 的 权 值 向 量 , b 是 偏 置 。 下 面 还 是 以 2 维 为 例 , 与 权 值 向 量 w = (w+ wz) 垂 直 的 
直线 上 的 向 量 和 w 的 内 积 都 相同 ， 所 以 对 它们 施加 仿 射 函数 b + wIx 的 结果 都 相同 ， 再 施加 


Logistic 函数 的 结果 也 都 相同 。 风 辑 回归 先 对 输入 向 量 施加 仿 射 函数 ， 这 样 就 丢失 了 垂直 于 w 的 


方向 上 的 信息 。 所 以 逻辑 回归 的 输出 只 在 w 的 方向 上 有 差异 ， 在 垂直 于 w 的 方向 上 无 差异 。 如 果 


根据 逻辑 回归 的 和 输出 是 否 大 于 阔 值 来 判断 样本 的 类 别 : 


output(x) = | 


则 只 能 得 到 垂直 于 w 的 超 平面 分 界面 ， 这 就 是 逻辑 回归 


祸首 ”， 它 选择 了 一 个 方向 ， 忽 略 了 其 他 方向 上 的 信息 ， 


0, f(x) <t 
1, f(x)=t 


(1.43) 


属于 线性 模型 的 原因 。 仿 射 函 数 是 “罪魁 
如 图 1-12 所 示 。 垂 直 于 w 的 那 条 虚线 上 


的 向 量 与 w 的 内 积 都 相同 ， 于 是 它们 有 相同 的 逻辑 回归 值 。 


图 1-12 逻辑 回归 只 能 形成 超 平面 分 界面 
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神经 元 可 以 选用 其 他 激活 函数 , 但 只 要 激活 函数 是 单调 的 ， 就 只 能 形成 超 平面 分 界面 。 采 用 
单调 激活 函数 的 神经 元 无 法 处 理 异 或 (XOR ) 问题 , 因为 异 或 问题 是 线性 不 可 分 的 无 法 用 直 
线 将 正 负 样本 点 分 隔 开 ， 如 岁 1-13 所 示 。 

X2 
。  ” 正 类 样本 
o ” 负 类 样本 
oo0 1 se 
oo 区 。 尖 :~ . 
EE EE ”EE EE EE 
人 了 14-2 ee ed 
8 °” | © op 
e ® 民 oo 0 
图 1-13” 蜡 或 问题 

解决 异 或 问题 ， 可 以 采用 非 单调 激活 函数 ， 比 如 平方 函数 : 

f(x) = 0.02 x (b + wix)? (1.44 ) 


f(X) 沿 w 的 方向 两 尖 考 起 ， 中 间 四 下 。 阁 w 取 合适 的 方向 并 选择 恰当 的 阔 值 ， 平 方 激 活 函 数 
就 可 以 解决 异 或 问题 ， 如 图 1-14 所 示 。 
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图 1-14 使 用 平方 激活 


襄 


函数 解决 异 或 问题 ( 偏 置 为 0) 


但 是 式 ( 1.44 ) 的 能 力也 仅 限 于 用 两 条 平行 直线 划分 平面 ， 就 算 使 用 正弦 sin 函 数 作 激活 函 
只 外 不 和 


数 ， 也 只 能 形成 无 数 条 平行 分 界线 。 总 之 ,垂直 于 权 值 向 量 方向 的 信息 已 经 丢失 了 ,神经 元 对 于 
同心 圆 状 分 布 的 数据 是 无 能 为 力 的 ， 如 图 1-15 所 示 。 


X2 
#6 
。 ”下 类 样本 
o ” 负 类 样本 
4 
oo 
D 
o 号 
9 
6 
bo 
. | 
. . 
. . 
8 bak oe 2 xX 
6 1 yo 人 “br 3 4 | Bs 
o ee ° 
o @ o 
o 
5 oq 
和 ol 
ps 
一 4 


] -6 


图 1-15 同心 圆 数据 
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同心 圆 数 据 的 正 类 样本 分 布 在 中 央 ,， 负 类 样本 围绕 在 外 围 。 


沿 着 任意 方向 , 都 无 法 将 两 类 样 


本 分 开 。 所 以 无 论 采 用 哪 种 激活 函数 ， 都 无 法 分 类 同心 圆 数 据 。 
必须 将 多 个 神经 元 连接 成 网 络 ， 人 允许 它们 合作 形成 复杂 分 界面 ， 


1.4 实例 : 根据 乌 类 骨骼 判断 生态 类 群 


要 想 获得 超越 线性 的 分 界 能 
这 就 是 神经 网 络 的 思想 。 


本 节 中 , 我 们 将 逻辑 回归 运用 于 一 个 实际 问题 : 根据 鸟 类 的 前 后 肢 骨 骼 测量 指标 来 判断 它 所 


属 的 生态 类 群 。 全 世界 现存 的 鸟 类 有 9000 余 种 ， 可 分 为 8 个 生 
猛禽 、 梦 禽 、 鸣 禽 、 走 禽 以 及 海洋 性 乌 类 ,不同 生态 类 和 群 的 鸟 类 


态 类 群 一 一 游 禽 、 涉 禽 、 陆 禽 、 


具有 不 同 的 生活 习性 。 自 然 选择 


使 鸟 类 的 身体 形态 适应 其 生活 环境 。 例如， 涉 禽 有 长 长 的 膀 颈 和 腿 ， 这 利于 它们 涉 水 捕 鱼 ; 猛禽 


有 强壮 的 翅膀 和 有 力 的 爪 ， 这 利于 它们 捕猎 。 


我 们 测量 了 400 余 个 乌 类 个 体 的 前 后 肢 骨 骼 ， 测 量 指标 分 另 
度 (humw )、 尺 骨 长 度 (ulnal )、 尺 骨 宽 度 (ulnaw )、 股 骨 长 度 


是， 及 骨 长 度 (huml )、 肽 骨 宽 


( feml )、 股 骨 宽 度 (femw )、 肥 


骨 长 度 (tibl )、 肥 骨 宽度 (tibw )、 踢 踊 骨 长 度 (tarl ) 以 及 中 中 上 骨 宽 度 (tarw )。 这 10 个 指标 都 


是 以 毫米 为 单位 的 实数 ， 精 确 到 小 数 点 后 两 位 。 括 号 中 的 内 容 是 指标 的 名 称 ， 也 就 是 特征 名 。 最 


后 一 个 字母 1 代表 长 度 , w 代表 宽度 , 之 前 是 该 骨骼 拉丁 文 名 称 的 前 3~4 个 字母 , 具体 见 图 1-16。 


这 10 个 特征 能 够 反映 乌 类 翅膀 和 腿 的 绝对 /相对 长 度 和 强壮 程度 


Nasal 
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数据 集 的 样本 覆盖 8 个 生态 类 群 中 的 6 个 , 它们 分 别 是 游 禽 (SW )、 涉 禽 (W )、 陆 禽 (T)、 
猛禽 (R )、 攀 禽 (P ) 以 及 鸣 禽 (SO )， 其 中 括号 中 的 内 容 是 我 们 为 生态 类 群 取 的 代号 。 数 据 集 
包含 分 属于 6 个 类 别 的 413 个 样本 ， 每 个 样本 包含 10 个 数值 特征 和 一 个 类 别 标签 。 随 机 选取 一 
些 例子 ， 如 表 1-1 所 示 。 


表 1-1 数据 集 样 例 


huml humw ulnal ulnaw feml femw tibl tibw tarl tarw type 
20.19 1.85 26.41 1.53 15.71 1.29 29.66 1.15 21.9 1.05 SO 
85 5.07 93.17 4.21 38.33 2.57 67.32 2.73 40 2.53 W 
107.41 5.69 110.5 5.32 40.62 3.15 81.86 3.71 44.62 2.95 SW 
22.26 :77. 24.58 1.67 21.28 1.68 36.06 1.43 24.14 1.41 SO 
48.19 3.44 43.71 3.01 50.46 3.6 94.86 3.45 33 4.57 W 
100.38 5.52 113.24 5.04 44.72 4.07 82.87 3.69 54.8 3.25 W 
23.27 2.15 27.62 2.16 21.86 1.64 35.55 1:31 23.23 1.32 SO 
310 14.4 315 9.51 88.77 8.1 180 9.45 96.13 7.69 SW 
29.26 2.66 27.63 2.23 27.87 2.03 38.9 1.81 25.22 1.62 了 
186 9.83 152 8.76 56.02 7.02 185 8.07 90.8 4.59 SW 
这 6 个 类 别 的 样本 数量 不 均衡 ， 具 体 如 图 1-17 所 示 。 


120 二 


601 


第 6 章 会 介绍 多 分 类 逻辑 回归 , 但 现在 我 们 介绍 的 逻辑 回归 只 处 理 二 分 类 问题 , 所 以 我 们 将 
6 个 类 别 归并 为 2 个 类 别 。 首先 , 我 们 对 数据 做 一 些 简 单 的 分 析 。 我们 将 10 个 特征 每 两 个 作为 一 
对 ， 画 出 二 维 散 点 图 算 了 泗 ， 如 图 1-18 所 示 。 
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huml humw unal ulna w feml femw tibl tibw tarl tarw 


图 1-18 ”特征 成 对 散 点 图 


图 1-18 是 一 个 10 x 10 的 阵列 ， 每 一 个 子 图 是 行 和 列 对 应 的 两 个 特征 的 散 点 图 ， 不 同类 别 的 
样本 用 不 同 的 标记 夯 出 。 在 对 角 线 上 , 行 和 列 对 应 同一 个 特征 ， 散 点 图 没有 意义 ， 所 以 对 角 线 上 
的 子 图 是 该 特征 的 分 布 直方 图 。 各 个 类 别 有 各 自 的 直方 图 ， 以 不 同 灰 度 显示 。 可 以 看 出 ,特征 与 
特征 之 间 有 较 强 的 相关 性 ， 因 为 无 论 鸟 的 具体 形态 如 何 ,大 体型 的 鸟 的 所 有 骨骼 都 较 长 ， 小 体型 
鸟 的 所 有 骨骼 都 较 短 。 


IF 
kn 


我 们 再 用 箱 状 图 展示 每 个 特征 在 每 个 类 别 上 的 分 布 ， 如 图 1-19 所 示 。 对 于 每 个 类 别 的 每 个 
特征 , 箱 状 图 的 “ 箱 ” 中 的 三 条 横 线 分 别 对 应 特征 的 25%、50% 和 75% 分 位 数 , 记 为 01 、Q2 和 0Q3。 令 
AQ = Qs 一 Qi， 向 上 疝 下 延伸 的 “ 须 ” 分 别 达 到 Qs + AQ 和 Qi 一 AQ。 在 上 下 “ 须 ” 之 外 的 点 ， 可 
以 认为 是 异常 点 。 箱 状 图 大 致 勾画 了 特征 的 分 布 。 
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huml humw ulnal ulnaw feml 
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图 1-19 ”特征 箱 状 图 


大 ， 可 以 认为 这 三 个 类 别 是 大 型 鸟 , 例 如 醒 顶 、 火 烈 鸟 和 秀 苞 。 而 陆 禽 (T)、 攀 禽 (P) 和 鸣 禽 
(SO ) 这 三 个 类 别 是 小 型 鸟 ， 例 如 钢 子 、 鹦 种 和 家 燕 。 我 们 将 6 个 类 别 归 并 为 大 型 鸟 和 小 型 鸟 这 
两 个 类 别 ， 以 大 型 马 为 正 类 ,这 就 构造 了 一 个 二 分 类 问题 。 以 不 同 标记 表示 大 型 鸟 和 小 型 马 两 个 
类 别 ，5 个 长 度 特征 ( 名 称 以 1 为 后 缀 的 特征 ) 的 成 对 散 点 图 如 图 1-20 所 示 。 


从 图 1-19 中 可 以 看 出 ， 游 会 (SW )、 涉 禽 (W ) 和 猛禽 (R ) 这 三 个 类 别 的 各 个 测量 值 都 较 


TE mn 本 
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图 1-20 5 个 长 度 特征 区 分 两 个 类 别 的 成 对 散 点 图 
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至 此 , 我 们 构造 了 一 个 413 个 样本 、10 个 数值 特征 的 二 分 类 问题 。 对 于 这 个 问题 ， 逻辑 回归 
需要 10 个 权 值 和 1 个 俩 置 。 在 后 续 的 章节 中 ， 我 们 将 用 原生 Python 实现 逻辑 回归 和 神经 网 络 来 
对 这 个 鸟 类 骨骼 与 生态 类 群 问题 进行 建 模 。 


1.5 小 结 


逻辑 回归 模型 是 一 种 线性 模型 ， 在 神经 网 络 的 语 境 下 ， 它 是 一 个 神经 元 。 逻 辑 回归 模型 的 分 
类 能 力 的 源泉 在 于 它 的 权 值 向 量 。 权 值 向 量 在 空间 中 指示 了 一 个 方向 , 仿 射 函数 值 提取 出 数据 沿 
该 方向 的 差异 。 递增 的 激活 函数 随 仿 射 函 数值 而 变化 , 根据 权 值 向 量 方向 上 的 差异 对 不 同样 本 产 
生 不 同 输出 , 它 可 解释 为 概率 。 确定 了 概率 闵 值 后 ,逻辑 回归 模型 的 分 界面 就 是 一 个 以 权 值 向 量 
为 法 向 量 的 超 平面 。 分 界面 将 空间 分 成 两 个 区 域 ， 不 同 区 域 中 的 样本 被 预测 为 不 同 的 类 别 。 


逻辑 回归 乃至 线性 模型 的 局 限 也 就 在 于 此 : 它们 只 能 提取 一 个 方向 上 的 信息 , 垂直 于 权 值 向 
量 方向 上 的 信息 丢失 了 。 如 果 数 据 在 所 有 方向 上 都 有 差异 ， 就 像 同心 圆 数据 那样 ,那么 线性 模型 
必然 无 法 把 握 全 部 信息 。 后 文 我 们 会 看 到 ， 只 有 将 神经 元 连接 成 网 络 ， 才 能 克服 这 个 局 限 。 但 在 
那 之 前 , 我 们 在 下 一 章 中 先 介 绍 如 何 根据 目标 调整 逻辑 回归 模型 的 权 值 向 量 和 偏 置 ， 即 模型 的 训 
练 问题 。 


第 2 章 


模型 评价 与 损失 上 子 效 


逻辑 回归 模型 对 样本 类 别 的 预测 取决 于 权 值 向 量 和 偏 置 。 想 让 模型 能 尽 可 能 正确 地 预测 样本 
的 类 别 ， 就 必须 寻找 合适 的 权 值 向 量 和 偏 置 ， 它 们 是 模型 的 参数 。 所 谓 “ 训 练 集 *"， 是 指 包含 真 
实 类 别 标签 的 样本 集合 。“ 训 练 ” 则 是 指 根据 训练 集 寻 找 最 优 模型 参数 的 过 程 。 损 失 函 数 是 模型 
参数 的 函数 ， 它 能 够 衡量 模型 参数 的 优 劣 。 训 练 过 程 调整 模型 参数 以 最 小 化 损失 函数 ,将 模型 训 
练 问题 转化 为 函数 优化 问题 。 


我 们 首先 介绍 一 些 模型 评价 指标 , 这 些 指 标 从 各 种 角度 评价 模型 的 预测 效果 。 但 是 这 些 指标 
不 能 直接 用 作 损 失 函 数 ， 因 为 无 法 根据 它们 调整 模型 参数 。 损 失 函 数 的 种 类 很 多 , 它们 具有 不 同 
的 特性 ,面向 不 同 的 问题 。 本 章 介绍 分 类 问题 最 重要 的 损失 函数 一 一 交叉 炉 损失 ,并 从 信息 论 和 
概率 论 两 种 角度 解释 交叉 焙 损 失 的 含义 。 


通过 本 章 , 读者 能 够 掌握 模型 训练 的 一 般 概 念 和 模型 评价 的 主要 方法 , 并 对 交叉 业 损 失 有 和 较 
深刻 的 理解 。 至 于 优化 损失 函数 的 方法 ， 则 留待 下 两 章 讲 解 。 本 章 虽 是 在 逻辑 回归 的 框架 下 进行 
讲解 ， 但 所 有 概念 都 可 以 用 于 其 他 机 器 学 习 模 型 。 


2.1 训练 集 与 测试 集 


给 定 权 值 向 量 w = (ww 和 …w,)TI 和 偏 置 b 时 , 逻辑 回归 模型 预测 样本 x = (x+ xz 和 …2%)I 属 
于 正 类 的 概率 是 : 


2 


1 
1+e-b-wlx 


其 中 ,w 和 b 是 模型 的 参数 。“ 训 练 ”( training ) 就 是 寻找 参数 w 和 b， 使 模型 尽 可 能 正确 地 预测 样 
本 的 类 别 。 训 练 需要 “训练 集 ”( training set )， 它 由 一 批 带 类 别 标签 的 样本 组 成 。 


f(x) = (2.1) 


样本 的 类 别 用 一 个 实数 y 标 识 , 例如 用 y = 1 标识 样本 属于 正 类 ,用 y = 0 标识 样本 属于 负 类 。 
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y 值 称 为 标签 (label )。10 编码 只 是 标签 编码 方法 之 一 ， 编 码 还 可 以 采用 其 他 形式 ， 后 文 会 看 到 
不 同 编码 的 用 途 。 训 练 集 是 如 式 〈2.2 ) 描述 的 集合 : 


5S = 人 cy (2.2 ) 


其 中 , 上 标 表示 样本 的 编号 , 训练 集 $ 共 包含 M 个 样本 。x: e R" 是 由 特征 组 成 的 向 量 , y e {0,1} 是 
样本 的 类 别 标签 。 为 了 客观 评价 模型 的 表现 ， 必 须 有 另 一 份 带 标签 的 样本 集 ， 这 个 样本 集 称 为 测 
试 集 ( test set )。 只 有 在 测试 集 上 评价 模型 ， 才 能 得 到 客观 的 指标 。 第 5 章 会 解释 独立 的 测试 集 
的 意义 。 


2.2 分 类 模型 的 评价 


逻辑 回归 模型 判断 样本 x 属于 正 类 的 概率 是 p(x e p)。 选 择 一 个 阔 值 +， 当 p(x e p)> t 时 , 预 
测 样本 x 属于 正 类 ， 否 则 预测 样本 x 属于 负 类 。 


~ (0, p(xEp)<t 
= p(x Ep)>t (2.3) 


其 中 ,9 是 模型 对 样本 的 预测 类 别 标签 ,同样 使 用 10 编码 ， 顶 上 的 “帽子 ”区 分 预测 标签 与 真 
实 标 签 。 对 测试 集 的 所 有 样本 计算 概率 p(x e p)， 选 择 闪 值 后 ， 根 据 式 (2.3 ) 就 可 以 得 出 模型 对 
每 一 个 测试 样本 Xx: 的 预测 标签 这。 


2.2.1 混淆 矩阵 


有 了 测试 集 上 的 预测 标签 和 真实 标签 ， 就 可 以 得 到 混 消 和 矩阵 (confusion matrix )， 如 表 2-1 所 示 。 
表 2-1 二 分 类 问题 的 混淆 矩阵 


预测 负 类 预测 正 类 
真实 负 类 TN FP 
真实 正 类 FN TP 


二 分 类 问题 的 混淆 矩阵 是 一 个 2x 2 矩阵， 其 他 几 种 主要 评价 指标 都 可 以 从 混淆 矩阵 计算 得 
出 。 混 清和 矩阵 的 每 一 个 元 素 分 别 如 下 所 示 。 


口 TN (true negative ): 真实 为 负 类 ， 且 模型 预测 为 负 类 的 样本 数 ; 
口 FP (falsepositive ): 真实 为 负 类 ， 但 模型 预测 为 正 类 的 样本 数 ( 被 错误 地 预测 为 正 类 ) ; 
口 FN (false negative ): 真实 为 正 类 ， 但 模型 预测 为 负 类 的 样本 数 ( 被 错误 地 预测 为 负 类 ) ; 
口 TP (true positive ): 真实 为 正 类 ， 且 模型 预测 为 正 类 的 样本 数 。 
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2.2.2 正确 率 
正确 率 (accuracy ) 的 计算 公式 为 : 


TN+TP 
accuUracy = 一 一 一 一 一 一 一 2.4 


正确 率 是 混淆 矩阵 的 对 角 线 元 素 之 和 除 以 全 体 元 素 之 和 , 它 是 模型 预测 正确 的 样本 数 与 样本 
总 数 之 比 。 正 确 率 衡量 模型 预测 的 正确 程度 , 但 某 些 情况 下 它 并 非 一 个 合适 的 评价 指标 。 假如 测 
试 集中 正 类 样本 和 人 负 类 样本 的 数量 比 为 99 : 1， 那么 如 果 模 型 将 所 有 样本 都 预测 为 正 类 ， 正 确 率 
能 达到 99% ， 但 是 该 模型 显然 不 是 一 个 好 模型 。 


2.2.3” 查 准 率 
查 准 率 又 称 准确 率 ( precision )， 其 计算 公式 为 : 


_ TP 
P TP+FP 


其 中 ， 脚 标 表示 这 是 正 类 的 查 准 率 ， 负 类 的 查 准 率 可 以 类 似 定义 。precisionn 是 混 消 和 矩阵 右 下 角 
元 素 除 以 第 二 列 元 素 之 和 , 它 是 模型 正确 预测 为 正 类 的 样本 数 与 全 部 预测 为 正 类 的 样本 数 ( 其 中 
包括 被 错误 地 预测 为 正 类 的 样本 ) 之 比 。precisionp 评 价 模型 预测 正 类 的 准确 程度 , 即 precisionp 越 
高 ， 则 模型 的 预测 越 可 靠 。 


(2.5 ) 


precision 


2.2.4 查 全 率 
查 全 率 又 称 召 回 率 (recall )， 其 计算 公式 为 : 
recall = (2.6 ) 


正 类 的 查 全 率 recallp 是 混淆 矩阵 右 下 角 元 素 除 以 第 二 行 元 素 之 和 , 它 是 模型 预测 为 正 类 的 样 
本 数 与 全 部 正 类 样本 数 之 比 。 类 似 地 ,我们 也 可 以 定义 负 类 的 查 全 率 。recallp 评 价 模型 对 正 类 的 
召回 情况 : recallp 越 高 ,说 明 模 型 能 把 更 多 的 正 类 样本 识别 出 来 。recally 又 称 真 阳 率 (TPR，true 
positive rate )， 与 之 对 应 还 有 假 阳 率 ( FPR，false positive rate ): 


FPR=— (2.7) 
FP+TN 


FPR 是 所 有 负 类 样本 中 被 错误 地 预测 为 正 类 的 比例 。FPR 越 高 ， 说 明 模 型 预测 为 正 类 的 样本 
中 混入 越 多 的 负 类 样本 。 


上 述 指标 都 衍生 自 混 清和 矩阵 ,它们 基于 模型 的 预测 ， 而 预测 依赖 概率 闵 值 。 如 果 立 值 设 得 较 
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低 ， 低 门槛 将 导致 更 多 的 样本 被 预测 为 正 类 ，recall, 会 升 高 ,但 同时 也 会 把 更 多 负 类 样本 错 判 为 
正 类 ， 从 而 抬 高 FPR， 并 降低 precision 。 反 之 ， 若 阔 值 设 得 较 高 ， 则 recallp 和 FPR 会 降低 ， 但 
precisionp 会 升 高 。 选 择 冰 值 是 对 两 种 相反 倾向 的 权衡 ， 需 要 根据 具体 问题 的 需求 而 定 。 


2.2.5 ROC 曲线 


假 阳 率 FPR 和 真 阳 率 TPR 这 对 指标 随 阔 值 变化 同 升 同 降 ， 阔 值 低 则 两 者 都 高 ， 阔 值 高 则 两 者 
都 低 。 高 TPR 是 我 们 愿意 看 到 的 ， 而 高 FPR 则 是 希望 避免 的 。 我 们 希望 在 提高 TPR 的 同时 ， 不 要 大 
幅度 地 提高 FPR。FPR 和 TPR 随 着 阔 值 的 变化 可 用 ROC 曲线 〈receiver operating characteristic curve ) 
刻画 ， 如 图 2-1 所 示 。 


ROC 曲 线 


AUC=0.869 


FPR 


图 2-1 ROC 曲线 


以 FPR 为 横 轴 ， 以 TPR 为 纵 轴 ,将 不 同 阔 值 对 应 的 FPR 和 TPR 以 散 点 的 形式 画 在 坐标 系 中 , 得 
到 一 条 向 上 拱 起 的 曲线 一 一 ROC 曲线 ,ROC 曲线 上 拱 得 越 高 ,说明 在 较 低 的 FPR 处 有 更 高 的 TPR。 
ROC 曲线 下 的 面积 (areaunder curve，AUC ) 可 以 衡量 模型 的 质量 。 高 AUC 意味 着 ROC 曲线 上 
拱 得 更 高 ， 模 型 的 表现 更 优 。AUC 不 依赖 阔 值 ， 是 一 个 全 面 衡 量 模型 质量 的 指标 。 


我 们 希望 模型 在 测试 集 上 有 较 优 的 表现 , 但 我 们 不 能 直接 用 测试 集 上 的 评价 指标 来 优化 模型 
参数 。 模 型 参数 的 微小 变化 将 导致 概率 的 微小 变化 ， 当 概率 变化 不 足以 跨越 闷 值 时 , 模型 对 样本 
的 预测 不 变 ， 各 种 评价 指标 也 就 不 变 ， 这 时 没有 任何 信息 能 指导 参数 的 优化 。 
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2.3 损失 函数 


我 们 需要 一 个 关于 模型 参数 的 可 导 函 数 , 并 且 它 能 以 某 种 方式 衡量 模型 的 效果 。 这 种 函数 称 
为 损失 函数 (loss function )。 损 失 函 数 的 值 越 小 ， 则 模型 的 预测 效果 越 优 。 于 是 ， 模 型 训练 问题 
就 转化 成 了 最 小 化 损失 函数 的 问题 。 损 失 函 数 有 很 多 种 ， 本 节 介 绍 分 类 问题 中 最 常用 的 交叉 彤 
(cross entropy ) 损失 ， 并 从 信息 论 和 贝 叶 斯 两 种 视角 曾 释 交叉 炉 损 失 的 内 涵 。 


2.3.1 K-L 散 度 与 交 又 灶 


随机 变量 X* 有 k 种 不 同 的 取 值 :x1,x?,…,x*。 记 X 的 值 取 x: 的 概率 为 p(X = xD ,可 简写 作 p(xD。 
若 将 X 看 作 一 个 信号 源 ， 观 察 到 X = x' 就 相当 于 收 到 了 一 条 信息 。 克 劳 德 . 香农 定义 了 信息 的 信 
息 量 


肿 


I(X = Xxi)= log——~ = —logp(xi), i= 1,.…,k (2.8) 


0 
其 中 的 对 数 可 以 2 为 底 ， 也 可 取 其 他 底 ， 比 如 自然 对 数 的 底 e。 不 同 的 底 得 到 的 信息 量 之 间 相 差 
一 个 常 系数 。 如 果 以 2 为 底 , 信息 量 的 单位 是 比特 (bit )。1(X = xz 是 “X = xi” 这 条 信息 的 自信 
息 量 ( self-information )。 自 信息 量 1(X = x) 随 着 概率 p(xi) 变 化 的 图 像 如 图 2-2 所 示 。 当 p(xi) 等 
于 1 时 ， 自 信息 量 1(X = xD 为 0; 当 p(xi) 趋 向 于 0 时 ,1(X = xz 趋向 于 正 无 穷 。 


0.2 0.4 0.6 0.8 
p(X= xX) 


图 2-2 自信 息 量 随 概 率 变 化 的 图 像 


自信 息 量 定义 背后 的 含义 是 : 信息 中 的 事件 发 生 的 概率 越 小 , 则 信息 量 越 大 。 假如 有 人 告诉 
即将 开奖 的 彩票 中 奖 号 码 是 7006070， 这 条 信息 对 你 非常 有 用 。 假 如 有 人 告诉 你 : 明天 太阳 

常 升 起 , 则 这 条 信息 几乎 是 无 用 的 。 ee 前 一 条 信 
息 中 的 事件 的 概率 极 小 所 以 信息 量 很 大 ; 后 一 条 信息 中 的 事件 的 概率 极 大 ， 所 以 信息 量 很 小 。 
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令 信 息 源 X 取 不 同 值 x1,x?,…,x* 的 概率 分 别 为 p(x1),p(x?),…,p(x*)， 定 义 信息 源 X 的 粹 
( entropy ) 为 : 


H(p) = fp(x) logsen = — & p(xi) logp(x’) (2.9) 


言 息 源 由 概率 分 布 p 描 述 , 所 以 粹 是 p 的 函数 , 灼 概念 来 自 热力 学 。H(p) 又 称 作 平均 自信 息 ， 
为 H(p) 是 将 X 的 所 有 取 值 的 自信 息 量 以 概率 为 权重 取 平 均 。 换 句 话 说 H(p) 是 自信 息 量 在 分 布 p 上 
的 期 望 (exception )。 式 (2.9 ) 针对 的 是 离散 型 随机 变量 , 对 连续 型 随机 变量 可 以 用 积分 代替 求 和 。 


对 于 两 个 概率 分 布 pP 和 q， 定 义 p 与 9 的 K-L 散 度 (kullback-leibler divergence ) 是 : 


p(x') 
q(xi 


KLD(p|lq) = DE-1p(xi)log— i = — Dip(x') logq(xi) — HP) (2.10) 


K-L 散 度 是 log5 在 分 布 p 上 的 期 望 ， 注意 ，KLD(p||q) KLD(q||lp)。 如 果 对 于 所 有 i， 都 有 
p(x’i) = q(xi), Ehlog ee = 0， 则 有 KLD(||q) = 0。 也 就 是 说 ， 两 个 相同 分 布 p 和 gq 的 K-L 散 度 


q(x 
为 0， 所 以 K-L 散 度 可 以 用 来 衡量 两 个 分 布 之 间 的 差异 程度 。 注 意 式 (2.10 ) 第 二 个 等 号 后 的 第 
一 项 ， 将 它 定义 为 分 布 pP 和 gq 的 交叉 炉 (cross entropy ): 


H(p,q) = — tip(x') log q(x') (2.11) 
卫 (p,9) 是 一 log q(x) 在 分 布 p 上 的 期 望 。 根 据 式 (2.10 ) 和 式 (2.11 )， 有 : 
H(p,q) = KLD(pl|lq) + H(p) (2.12) 


分 布 pP 和 gq 的 交叉 炉 等 于 它们 的 K-L 散 度 加 上 p 的 炉 。 如 果 分 布 p 固 定 , 则 H(p, gq) 与 KLD (p19) 
之 间 相 差 一 个 常数 H(p)， 于 是 了 (p,q) 也 可 以 用 来 衡量 分 布 p 和 q 的 差异 程度 : (p,q) 越 小 ， 则 p 和 
q 越 相似 。 对 于 一 个 训练 样本 {xi,y 丫 ， 可 以 认为 标签 yi: 给 出 了 一 个 类 别 概率 分 布 : 


p(xi Ep)=yi, p(xiEn)=1-yi, i=1,…,M (2.13) 


当 xi 属 于 正 类 时 ，y' = 1， 该 分 布 就 是 p(xi Ep) = 1 且 p(x en) = 0; 当 xi 属 于 负 类 时 ， 
y' = 0， 该 分 布 就 是 p(xi €E p) = 0 上 且 p(x: € n) = 1。 逻辑 回归 模型 的 输出 也 是 一 个 分 布 q : 


i es i LE 
q(x' Ep)= i q(x' En) ps i 1,.…,M (2.14) 


我 们 希望 预测 分 布 与 标签 给 出 的 分 布 越 相 似 越 好 ,于 是 可 以 用 标签 给 出 的 分 布 p 和 预测 分 布 q 
的 交叉 箭 作为 训练 样本 {2z2 7 的 损失 : 
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loss(w, blxi,y') = —y: log 一 -一 (1—y')log i=1,.…,M (2.15) 


pr 2 


loss(w,b|xi,y ) 越 小 ， 则 预测 分 布 与 标签 给 出 的 分 布 越 相似 。 式 (2.15 ) 是 一 个 训练 样本 的 
交叉 粒 ， 模 型 在 整个 训练 集 上 的 交叉 箭 就 是 所 有 训练 样本 的 交叉 精 的 平均 : 


loss(w,b) = 去 2 1(-y y' log wr — (1 — yi)log (2.16) 


pr 7) 


式 (2.16 ) 就 是 交 义 炉 损 失 , 它 基 于 特定 训练 集 ， 并 以 参数 w 和 2b 为 自 变量 。 人 逻辑 回归 模型 的 
训练 就 是 寻找 使 loss(w,b) 尽 可 能 小 的 w 和 b， 这 就 将 训练 问题 转化 为 函数 优化 问题 。 交 叉 焙 损失 
与 上 一 节 介 绍 的 各 种 评价 指标 之 间 没 有 直接 的 、 显 式 的 关系 , 但 最 小 化 交 义 人 损 失 拉 近 了 预测 分 
布 与 训练 样本 给 出 的 真实 类 别 分 布 之 间 的 “距离 ”。 


2.3.2 ”最 大 似 然 估计 
本 节 从 概率 的 视角 阐释 交叉 箭 损失 的 内 涵 。 令 X 和 7Y 是 两 个 离散 型 随机 变量 ， 贝 叶 斯 公式 


(Bayes rule ) 是 : 


p(Y=y|X=X)p(X=x) 


BD (2.17) 


p(X = xlY = y) = 


p(X = x|Y = y) 称 为 后 验 概 率 ( posterior )， 它 是 观察 到 事件 7 = y 的 前 提 下 ， 事 件 X = x 发 生 
的 概率 。 右 边 分 子 上 的 p(X = x) 称 为 先 验 概率 ( prior )， 它 是 事件 X = x 发 生 的 概率 。 分 子 上 的 
p(Y = y|X = x) 称 为 似 然 概率 ( likelihood )， 它 是 观察 到 事件 X = x 的 前 提 下 ， 事 件 Y = y 发 生 的 
概率 。 分 母 p(Y = y) 是 事件 Y = y 发 生 的 概率 : 


p(Y =y)= 2p(Y =y,X=x)= Bp(Y = yIX = x)p(X = x) (2.18) 
由 于 对 X 的 所 有 可 能 值 求 和 ， 所 以 p(Y = y) 与 X 的 值 无 关 。 式 (2.17 ) 的 证 明 很 简单 ,将 右边 
的 分 母 乘 到 左边 ,根据 条 件 概 率 的 定义 ,等 号 两 边 都 是 p(X = x,Y = y)， 即 事件 Xx = x 和 Y = y 都 
发 生 的 概率 。 


对 于 逻辑 回归 模型 ， 
代入 贝 叶 斯 公式 : 


hl 


和 件 Xx 代表 “模型 的 真实 参数 是 w 和 b”,， 事件 7 代表“ 观察 到 训练 集 5”， 


p(S|Iw,b)p(w,b) 


Bow 二 p(s) 


(2.19) 


式 (2.19 ) 中 ,在 观察 到 训练 集 5 的 前 提 下 ， 真 实 参 数 为 w 和 b 的 后 验 概率 是 p(w,b|5)。 在 真 
实 参 数 为 w 和 b 的 前 提 下 ， 观 察 到 训练 集 5 的 似 然 概 率 是 p(S|w,b)。 真 实 参 数 为 w 和 b 的 先 验 概率 
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是 p(w,b)。 观 察 到 训练 集 5 的 概率 是 p(S)。 这 些 概 率 满足 贝 叶 斯 公式 。 训 练 的 目标 ， 是 寻找 观察 
到 训练 集 5 的 前 提 下 ， 概 率 最 大 的 参数 值 ， 也 就 是 使 后 验 概 率 p(w,b15) 最 大 的 参数 值 : 


w’,b* = argmaxw,p p(w, b|5) (2.20 ) 
假设 先 验 概 率 p(w, Db) 与 参数 的 取 值 无 关 ， 那 么 问题 转化 为 寻找 使 似 然 概率 最 大 的 参数 值 : 
w’,b* = argmaxw,p p(S|w, b) (2.21) 


其 中 ,，w*,b* 称 为 最 大 似 然 估 计 ( maximum likelihood estimate，MLE )。 对 于 一 对 训练 样本 和 类 别 
标签 {xi,y 站 ，y 为 1 表示 样本 属于 正 类 ， 为 0 表示 样本 属于 负 类 。 人 逻辑 回归 模型 计算 样本 xi 属 于 
标签 yi 所 表示 的 类 别 的 概率 是 : 


pO'lw, b,x) = (一 a 。 ) i=1,.,M (2.22 ) 


1+e-b-wIix! 1+ebtwTxi 


式 (2.22 ) 利用 任何 数 的 0 次 方 都 等 于 1, 根据 yi 是 1 或 0, 选择 p(xi e p) 或 p(xi e n)。 假设 
训练 样本 是 独立 的 ， 有 : 


plSIw,b) = [TS1 py"|w, b, x’) (2.23) 

因为 log 是 单调 递增 的 ， 式 (2.21 ) 等 价 于 寻找 : 
w’,b* = argmaxwp logp(S|w, b) (2.24 ) 
根据 式 (2.22 )、 式 (2.23 ) 和 式 (2.24 ), 最 大 似 然 估计 就 是 寻找 w* 和 b*, 使 式 (2.25 ) 最 大 化 : 


三 M i i vyM i 1 i 1 
logp(S|w,b) = log TI pyilw,b, x) = D1 (y: log 和 -十 (1 一 ylog 一 (2.25 ) 


e—b-wlIxi 


最 大 化 logp(SIw,b) 等 价 于 最 小 化 它 的 相反 数 ， 于 是 最 大 似 然 估计 就 是 寻找 w* 和 b*， 使 式 
(2.26 ) 最 小 化 : 


1 
e-b—w 


Ti+ (1 — yD) log— mr) (2.26 ) 


1 二 ebp+wTxz 


~logp(SIw,b) = 一 Zi (yilog 一 


除了 一 个 常 系数 -=， 式 (2.26 ) 和 式 (2.16 ) 相同 ， 所 以 最 小 化 交叉 业 (2.16 ) 的 w* 和 b* 正 是 
最 大 似 然 估计 。 


最 大 似 然 估计 使 似 然 概率 最 大 化 , 但 其 实 我 们 真正 想 要 的 是 最 大 化 后 验 概率 。 在 假设 模型 参 
数 的 先 验 概率 与 具体 取 值 无 关 的 前 提 下 ， 此 二 者 是 等 价 的 。 在 第 5 章 中 我 们 将 看 到 ,为 损失 函数 
加 上 “正则 项 ”相当 于 为 模型 参数 假设 一 个 先 验 分 布 ， 最 小 化 带 “ 正 则 项 ”的 损失 函数 等 价 于 最 
大 化 后 验 概率 ， 而 正则 化 强度 与 先 验 分 布 的 方差 有 关 。 
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2.3.3 ”从 几何 角度 理解 交叉 蚁 损失 


第 1 章 介绍 过 ， 逻 辑 回 归 只 能 形成 超 平面 分 界面 ( 以 下 把 2 维 直 线 、3 维 平面 以 及 更 高 维 的 
超 平面 统称 超 平面 )。 如 果 以 p(x e p) = 0.5 为 阔 值 ， 则 分 界 超 平面 的 方程 是 


= 0.5 (2.27 ) 2 


p(x EP)=- 


1 
1+e-b-wIx 
经 过 简单 的 计算 ， 可 知 式 (2.27 ) 等 价 于 : 

b+wix=0 (2.28) 


满足 式 ( 2.28 ) 的 所 有 向 量 构 成 一 个 以 w 为 法 向 量 的 超 平面 P,P 上 的 向 量 与 w 的 内 积 都 相同 ， 
即 P 上 的 向 量 向 w 投 影 的 长 度 都 相同 : 


时 
wx*—_ Pb xep (2.29) 


lwll lwll ” 


若 某 向 量 向 w 投 影 的 长 度 大 于 -2 ， 则 它 位 于 PP 的 一 侧 ， 该 侧 称 为 正 侧 ; 若 某 向 量 向 w 投 影 


lwl 7 


的 长 度 小 于 - 疡 , 则 它 位 于 P 的 另 一 侧 ,该 侧 称 为 负 侧 。x 的 投影 长 度 与 一 疡 之 差 的 绝对 值 2 是 


X 与 超 平面 了 之 间 的 距离 ， 如 图 2-3 所 示 。 


207 -20 


图 2-3 超 平面 将 空间 分 为 两 侧 
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交叉 炉 损 失衡 量 模型 的 预测 分 布 与 训练 集 标签 给 出 的 分 布 之 间 的 差异 程度 , 交叉 精 越 大 , 则 
这 两 个 分 布 差异 越 大 , 所 以 训练 的 目标 是 最 小 化 交 义 焙 。 交 又 炉 损失 是 关于 模型 参数 的 一 个 非常 
复杂 的 函数 , 我 们 对 这 个 函数 做 一 些 变 形 , 目的 是 清晰 地 看 出 交叉 业 损 失 究 莞 惩罚 了 模型 什么 样 
的 行为 。 首 先 ， 我 们 用 男 一 种 方式 编码 样本 的 类 别 : 


i 
2 (2.30) 
一 1 x En 


假设 一 个 逻辑 回归 模型 以 0.5 为 闷 值 时 ,能 正确 预测 全 部 训练 样本 , 则 对 所 有 Y: = 1 的 样本 ， 
有 p(xi e p) > 0.5, 于 是 六 + wTIX > 0, Xi 位 于 P 的 正 侧 , 此 时 贷 (b + wixi) > 0; 对 所 有 六 = 一 1 的 
样本 ， 有 p(xi e p) < 0.5， 于 是 b + wTxi < 0，xi 位 于 PP 的 负 侧 ， 此 时 仍 有 3i(b + wTxD > 0。 


当天 + wIxD < 0, 即 玉 和 b 十 wx 符号 相反 时 ,模型 预测 错误 一 一 正 类 样本 位 于 PP 的 负 侧 ， 
p(x' ep) < 0.5, 负 类 样本 位 于 PP 的 正 侧 ,p(x' € p) > 0.5。 损 失 函 数 应 该 对 分 错 的 情况 施 以 惩罚 。 
交叉 入 损 失 式 (2.16 ) 中 的 yi 用 110 标 识 类 别 ， 对 于 所 有 i，y' 与 六 的 关系 是 : 


1+9: 


天 = 了 i=1,M (2.31) 
将 式 (2.31 ) 代入 式 (2.16 ),， 得到: 
1 1+7: 1 1 一人 1 
loss(w, b) = I (- 全 1og 一 nr log tom) (2.32 ) 


每 一 个 训练 样本 {22 了} 对 交叉 炉 损失 的 贡献 是 : 


L Be 于 二 1 | se 
oss(w, px 7) = 2 08 1 + e-b-wixi 2 "81 + ebtwixi 
ee C3 
2\Y Bire-b-wix 8 (1+ebtwIxi (1te-b-wixt)j’ | 


正 类 样本 的 六 = 1， 于 是 式 (2.33 ) 变 为 : 


ee iN-2 i 
loss(w, blx', y’) = -tlog(1 + eb-wx ) = log (1 + e-(Ptwix )) ,i=1,.…,M (2.34) 


负 类 样本 的 六 = -1， 于 是 式 (2.33 ) 变 为 : 


2 NN\-2 i 
loss(w, blx',Y’) = -log (1 + elPtwix )) = log (1 + ebtw'x ) ,i=1,.…,M (2.35) 


结合 式 (2.34 ) 和 式 ( 2.35 )， 得 到 : 
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loss(w, b|x', $Y!’) = log (1 十 本 ,i=1,.…,M (2.36 ) 


将 loss(w,b|xi, 了 ) 视 作 (b + wix') 的 函数 ， 其 图 像 如 图 2-4 所 示 。 


| 
-6 -4 4 


0 
yi(b + wi'x') 


图 2-4 交叉 炳 损失 作为 天 (bp + wTxi) 的 函数 的 图 像 


如 果 对 某 一 个 训练 样本 {xi, 了 中， 有 (Db 十 wTxi) > 0， 说 明江 与 5 + wixi 同 号 ,样本 位 于 分 
界面 正确 的 一 侧 , 损失 函数 不 应 该 惩罚 这 种 情况 .相反 ,车头 (0 + wTxi) < 0, 说 明 入 与 + wTxi 异 
号 ， 样 本 位 于 分 界面 错误 的 一 侧 。 而 且 | + wxi| 越 大 ， 季 在 错误 的 一 侧 距离 分 界面 越 远 ， 损 失 
函数 应 该 惩罚 这 种 情况 。 从 图 2-4 可 见 ， 交 又 焙 损失 表现 出 恰当 的 行为 : “安抚 ”正确 的 分 类 ， 
惩罚 错误 的 分 类 ， 并 且 对 错误 分 类 的 惩罚 力度 随 错误 的 程度 呈 线 性 增加 。 
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评价 指标 评价 模型 的 预测 效果 , 但 众多 的 指标 都 只 能 反映 模型 效果 的 一 个 侧面 , 我 们 需要 根 
据 问题 的 具体 需要 选择 不 同 的 指标 。 本 章 介 绍 了 最 常用 的 几 种 模型 评价 指标 , 但 它们 无 法 作为 优 
化 模型 参数 的 依据 ， 因 为 它们 不 是 关于 参数 的 可 导 函 数 。 什 么 是 可 导 , 为 什么 不 可 导 就 无 法 优化 
参数 ， 留 待 后 文 讲解 。 


本 草 主 要 关注 损失 函数 , 损失 函数 是 衡量 模型 预测 效果 的 间接 指标 , 例如 交叉 精 损 失衡 量 模 
型 预测 分 布 与 训练 标签 给 出 的 分 布 之 间 的 相似 程度 。 从 贝 叶 斯 视角 看 ,最 小 化 交叉 和 就 是 最 大 化 
观察 到 训练 集 的 似 然 概率 ,这 称 为 最 大 似 然 估计 。 从 几何 角度 看 ,交叉 焙 损 失 惩罚 位 于 分 界面 错 
误 一 侧 的 样本 ,距离 分 界面 越 远 惩 罚 越 重 。 损失 函数 将 模型 训练 问题 转化 为 函数 优化 问题 , 接 下 
来 的 两 章 我 们 将 介绍 函数 优化 算法 ， 它 们 是 机 器 学 习 的 核心 数学 基础 之 一 。 


柳 度 下 降 法 


训练 就 是 寻找 使 损失 函数 最 小 的 模型 参数 , 于 是 模型 训练 问题 就 成 了 函数 优化 问题 。 函 数 优 
化 是 应 用 数学 的 一 个 分 支 ,是 一 个 丰富 的 理论 武器 库 。 机 顺 学 习 与 函数 优化 联系 紧密 ,特别 是 基 
于 函数 局 部 特性 的 迭代 优化 算法 应 用 最 为 普遍 。 梯 度 下 降 法 就 是 一 种 基于 函数 局 部 一 阶 特性 的 优 
化 算法 ， 它 在 神经 网 络 和 深度 学 习 领 域 占 统治 地 位 。 


要 深入 理解 函数 优化 ， 必 须 具 备 多 元 微分 的 背景 知识 。 本 章 首 先 回顾 多 元 函数 的 梯度 、 方 向 
导数 、 偏 导数 等 概念 。 梯 度 包含 函数 在 自 变 量 空间 某 一 点 附近 的 一 阶 近似 信息 ,或 称 线性 近似 。 理 
解 了 梯度 概念 后 , 我 们 介绍 梯度 下 降 法 。 梯度 下 降 法 利用 梯度 确定 函数 值 下 降 最 快 的 方向 , 并 沿 该 
方向 前 进 一 段 距离 。 算 法 迭代 执行 此 步骤 ,使 函数 值 不 断 下 降 ， 期 待 能 够 找到 函数 的 全 局 最 小 点 。 


一 阶 近似 是 对 原 函 数 的 最 粗糙 的 近似 。 由 于 梯度 下 降 法 只 利用 了 线性 近似 信息 , 所 以 它 是 短 
视 的 。 本 章 曾 述 梯度 下 降 法 的 一 些 问题 ， 之 后 介绍 几 种 对 原始 梯度 下 降 法 的 改进 。 最 后 本 章 展示 
如 何 运用 梯度 下 降 法 训练 逻辑 回归 模型 。 通 过 本 章 , 读 者 能 够 透彻 理解 梯度 下 降 法 的 原理 和 局 限 。 


3.1 多 元 函数 的 微分 


微分 刻画 函数 的 局 部 线性 近似 ， 即 用 仿 射 函数 近似 原 函 数 。 仿 射 函数 的 图 像 是 超 平面 ， 所 以 
线性 近似 就 是 在 局 部 用 超 平面 近似 原 函 数 的 图 像 。 并 不 是 所 有 函数 在 任意 位 置 都 能 被 仿 射 函数 近 
似 。 若 要 这 种 近似 能 够 成 立 ， 原 函数 必须 满足 一 定 条 件 ， 就 是 在 该 位 置 可 微 。 前 文 介绍 过 ， 超 平 
面 的 朝向 和 倾斜 程度 蕴含 在 它 的 法 向 量 中 。 函数 的 局 部 近似 超 平 面 的 法 向 量 与 函数 在 该 位 置 的 梯 
度 有 关 。 


多 元 函数 的 自 变 量 在 某 点 可 以 沿 无 数 方向 运动 ， 函 数值 在 每 个 方向 上 都 有 不 同 的 变化 率 。 多 
元 函数 沿 某 一 方向 的 变化 率 称 为 方向 导数 。 各 个 方向 的 方向 导数 也 都 草 含 在 梯度 之 中 。 若 要 寻找 
函数 值 下 降 最 快 的 方向 ， 就 要 用 到 梯度 。 本 节 深 入 讲解 这 些 概 念 。 
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3.1.1 梯度 
首先 回忆 一 下 一 元 函数 f(x) 的 可 导 性 及 其 导数 f(x) 的 定义 : 


广 CD = 到 CD = lm of (3.1) 


如 果 式 (3.1 ) 的 极限 存在 ， 则 称 f(x) 在 x 可 导 ， 导 数 是 "(x)。h 是 一 个 变化 量 。 在 f(x) 的 图 
像 中 用 一 个 线段 连接 (x, f(x)) 和 (x + hf(x + 有 ) 两 点 ， 这 个 线段 称 为 制 线 。 式 (3.1 ) 极限 中 
的 商 全 -9 是 制 线 的 斜率 。 随 着 h 趋 近 于 0， a 函数 
在 某 一 点 制 线 斜率 的 极限 就 是 函数 在 该 点 的 导 交 


示 。 


.0 
一 一 fx) Xx 处 的 切线 
---- f(x) 


f(x +h)— fx) 


a 
==- 


Oo 


图 3-1 ”一 元 函数 的 制 线 、 切 线 和 导数 


自 变量 从 x 变化 到 x + h 时 ， 制 线 斜率 -9 也 是 函数 值 的 平均 变化 率 。 导 数 /7(x) 是 平均 
变化 率 的 极限 一 一 函数 值 在 x 的 瞬时 变化 率 。 在 一 元 情况 下 , 自 变量 只 能 沿 着 x 轴 前 后 运动 ,这 时 
可 以 像 式 (3.1 ) 那样 用 瞬时 变化 率 定义 导数 。 但 多 元 函数 的 自 变量 是 向 量 ， 可 以 沿 无 数 方向 运 
动 ， 那 么 如 何 定义 多 元 函数 的 导数 呢 ? 


一 元 函数 的 可 导 性 还 有 另 一 种 等 价 定义 : 若 在 x 附近 能 用 直线 近似 f(x) 的 图 像 , 则 称 f (x) 在 x 
可 导 。 后 面 我 们 将 这 种 可 导 定 义 扩展 到 多 元 函数 。 但 首先 我 们 要 说 明 “ 能 用 直线 近似 ”是 什么 意 
思 ， 并 证 明 在 一 元 情况 下 这 两 种 可 导 定 义 是 等 价 的 。 假 设 f (x) 在 x 可 导 ， 构 造 一 个 关于 h 的 仿 射 
函数 : 


gu = f(x) + hf' (x) (3.2) 
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将 f(x + 有 写成 一 个 关于 h 的 仿 射 函数 再 加 余 项 的 形式 : 


f(x+h)= fx)+hf" (x) + RA) 


(3.3) 
车 也 数 在 某 点 可 导 , 则 它 在 该 点 连续 。 于 是 f(x) 在 x 连续 , 即 关 于 h 的 函数 f(x + 门 在 六 = 0 连 


续 。 仿 射 函 数 g(h) 也 是 连续 的 。 余 项 RR(h) 是 两 个 连续 函数 的 差 .， 所 以 它 也 在 h = 0 连续 ， 即 
limn_so RR(h) = R(0) = 0。 男 外 ,根据 式 (3.1 ) 有 : 


Rh) 
limn yo | = limno 


EDD peo) =0 (3.4) 
式 (3.4 ) 等 价 于 : 


RD 


limn 0 一 0 


(3.5 ) 
所 以 ， 当 jh 起 近 于 0 时 ，R( 有 ) 和 | 都 趋 近 于 0。 这 说 明 随 着 变化 量 h 消 失 ，R(h) 也 消失 ， 
而 且 消 失 得 比 h 还 快 ,这 种 情况 称 R(h) 是 h 的 高 阶 无 穷 小 。 对 式 ( 3.3 ) 做 一 个 变量 替换 , 令 x' = x 十 h 
得 到 : 


f (x)= f(x) + FOX — A) +RE ~ fxX) +f (XIX — xX) 


(3.6) 
式 ( 3.6 ) 的 含义 是 : 函数 在 x 附 近 可 被 一 个 仿 射 函数 近似 ,近似 误差 是 x' 与 x 之 间距 离 |x' 一 x| 的 
高 阶 无 穷 小 。 该 仿 射 函 数 的 


图 像 是 经 过 点 (x, f(x)) 的 直线 , 即 f(x) 在 x 的 切线 ,切线 在 x 点 与 f(x) 
的 图 像 重 合 ， 在 其 他 点 与 f(x) 的 图 像 有 差距 ， 差 距 是 自 变量 与 x 之 间距 离 的 高 阶 无 穷 小 。 这 就 是 
函数 的 图 像 在 x 点 附近 可 被 直线 近似 的 含义 ， 如 


图 3-2 所 示 。 
y 
Ax) + hf (x) 
R(h) = f(x) + hf (x) ~ f(x+h) 
fx Fh 
f(x) 


+11:0 


十 9-5 


上 和 


图 3-2 


可 导 函 数 在 某 点 附近 可 被 


其 切线 近似 
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现在 反 过 来 证 明 : 如 果 f(x) 的 图 像 在 x 点 附近 可 被 直线 近似 , 则 Fo 在 x 可 导 且 导数 是 该 直线 
的 斜率 。 如 果 f (x) 在 x 附近 的 值 f(x 十 有) 可 以 写成 f(x 十 hh) = f(x) +ha+ 只 (站 ， 其 中 办 ( 门 是 几 的 
高 阶 无 穷 小 ， 那 么 有 : 


ED ha+R(h) = a + limn yo 全 


limn 0 一 limn 0 ( 3.7 ) 


式 (37) 说 明 f(x) 在 x 可 导 ， 导 数 7(x) = a。 这 就 证 明了 两 种 可 导 定义 是 等 价 的 。 以 “可 被 
仿 射 函数 近似 ”作为 可 导 的 定义 ， 就 可 将 可 导 性 扩展 到 多 元 函数 (x) 。 如 果 f (x) 在 x 附近 的 什 
f(x + 有 可 以 被 某 个 仿 射 函数 近似 ， 即 存在 记 为 vf(x) 的 向 量 ， 满 足 : 


f(x+h)= f(x) +VfX) Th + RRA) (3.8) 
其 中 ， 余 项 R(h) 是 h 的 长 度 ||h|| 的 高 阶 无 穷 小 : 
limllal->o Te =0 ( 3.9 > 


则 称 多 元 函数 fx) 在 x 可 导 。 式 (3.8 ) 中 的 向 量 Vf (Xx) 称 为 (Xx) 在 x 的 梯度 ( gradient )。 对 式 ( 3.8 ) 
做 变量 蔡 换 ， 令 x' =x 二 hh， 得 到 : 


fx") = fx) +TVFODJIG — xXx) + R(X’ — xX) f(x) + VIX) TX’ — xX) (3.10) 


式 ( 3.10 ) 的 含义 是 ;函数 在 x 附近 可 被 一 个 仿 射 函数 近似 ,近似 误差 是 x' 与 x 之 间距 离 ||x’ 一 x|| 
的 高 阶 无穷 小 。 这 个 仿 射 函数 的 图 像 是 经 过 点 (xT ,f(x)) 的 超 平面 , 即 函 数 在 x 的 切 平面 (tangent 
hyperplane )。 切 平面 的 法 向 量 是 (Vf(x)", 一 1)7。 于 是 梯度 的 方向 决定 切 平面 的 朝向 , 梯度 的 长 度 
( 模 ) 决定 切 平面 的 倾斜 程度 ， 如 图 3-3 所 示 。 


X= (一 0.40, 一 0.40)7 处 的 切 平面 和 梯度 X= (一 0.20, 一 0.20)7 处 的 切 平面 和 梯度 


+3y 3y 


2 
区 而 量 = T 
Se 向 是 = (1.02,1:04, 二 1.00)T 1:00) 


S 0 
vfF(1L027102)7 ， #7=(0.58, 0:58) 


0 
妇 


图 3-3 ”多 元 函数 的 切 平面 和 梯度 


X= (一 0.10, 一 0.10)T 处 的 切 平面 和 梯度 X= (-0.05, 一 0.05)T 处 的 切 平面 和 梯度 


| 4 
tr3Y 
2 
向量 = (0.30;0.30, -1.00)T 
"SR ss 全 


A 一 


0 
sf=(0:30, 0,30)T 3 


3.1.2 方向 导数 


如 果 f(x) 在 x 可 导 ， 如 何 定 义 f(x) 在 x 沿 各 个 方向 的 变化 率 ? 可 以 指定 一 条 经 过 x 的 直线 ， 然 
后 讨论 当 自 变量 沿 着 这 条 直线 运动 时 函数 值 的 变化 率 。 经 过 x 的 直线 可 定义 为 : 


It)=x+t+td, teR, lldl=1 (3.11) 


其 中 ,4d 是 单位 向 量 , 它 决 定 了 直线 的 走向 。t 决 定 了 x + td 离 x 的 距离 ，1(0) = x。 接 下 来 在 直线 
1(t) 的 基础 上 定义 一 个 复合 函数 (f@D)(): 


(fF@D) = f(10)) = fx + td) (3.12) 
(f@)(t) 是 自 变 量 为 t 的 一 元 函数 。 根 据 式 (3.1 )，(F@1))(bO 在 0 的 导数 是 : 
dD 0) = limy, ,OOO jim, ,ED (3.13) 


式 (3.13 ) 就 是 f(x) 在 x 沿 d 的 方向 导数 ( directional derivative )， 用 Vaf (Xx) 表示 。X 和 单位 向 
量 d 定 义 了 一 个 坐标 轴 ，x 是 该 坐标 轴 的 原点 。 坐 标 轴 的 走向 沿 着 d， 以 qd 的 方向 为 正方 向 。 如 果 
限制 自 变 量 只 能 在 这 条 坐标 轴 上 变化 , 这 就 相当 于 定义 了 一 个 一 元 函数 。Vaf (OO) 是 这 个 一 元 函数 
在 原点 的 导数 ， 如 图 3-4 所 示 。 


方向 ，d = (0.4, 0,9)T， 方 向 导数 : vgf= 0.522 


方向 d= (1.0, 0.0)7， 方 向 导数 : vof= 一 1.168 


6 十 6 
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3-4 ”方向 导数 


qd 必须 是 单位 向 量 ， 否 则 (f@D)(t) 的 t 就 不 再 是 自 变 量 沿 新 坐标 轴 运 动 的 距离 。 一 d 确 定 了 一 


个 方向 相反 的 坐标 轴 ， 函 数 的 变化 率 相反 ， 即 V_af (x) = 一 Vaf (x)， 这 容易 验证 。f (xX) 在 x 沿 各 
个 方向 的 方向 导数 都 蕴含 在 梯度 Vf(x) 中 。 因 为 f(x) 在 x 可 导 ， 根 据 式 (3.8 ) 有 : 


(fr@DOD = f(x+hd) = fx) + hv Td + Rhd) (3.14) 
其 中 ，R(hq) 是 变化 量 hd 的 高 阶 无 穷 小 ， 即 : 
limllnal-o 和 =0 (3.15 ) 


因为 lndll = lallldll = lhl|， 所 以 当 h 趋 近 于 0 时 ，|lhqdl| 也 趋 近 于 0。 这 时 有 : 


Rhd) _ 1, Rhd) 


Rd _ 
limn so hy = Hn nar = liminal-o Tray J (3.16) 


所 以 RC(hqd) 也 是 h 的 高 阶 无 穷 小 ,另外 ,因为 f(x) = (F@0)(0) ,所 以 式 (3.14 ) 表 明 (F@D(Gb 在 0 
的 导数 是 Vf(x)Tdq， 即 Vaf (x) = Vf(x)'d。 于 是 我 们 有 : 


Vaf (x) = Vf (x)"d = IIvf lladll cos0 = IIVf (2)ll cosO (3.17) 


其 中 ，9 是 Vf (x) 与 d 之 间 的 夹 角 。 由 式 (3.17 ) 可 知 ，f (xX) 在 x 沿 d 的 方向 导数 等 于 f(x) 在 x 的 梯 
度 Vf(X?) 向 d 的 投影 长 度 。 当 qd 与 Vf (Xx) 同方 向 (9 = 0 ) 时 ，Vaf(%) 最 大 。 所 以 末 名 是 f(x) 变 化 
率 最 大 的 方向 ， 其 变化 率 是 |IVf(X)> 0。 沿 着 一 名 多 方向 (9 = ) 的 方向 导数 最 小 ， 等 于 
-lyFGoolls 0。 所 以 ,梯度 反方 向 -Vf (Xx) 是 F(x) 变化 率 最 小 的 方向 , 即 函数 值 下 降 最 快 的 方向 。 


在 2 维 的 情况 下 ， 可 以 用 切 平面 描述 梯度 Vf (Xx) 与 方 同 导数 Vaf (Xx) 的 关系 。 切 平面 的 法 向 量 
是 (Vf(Xx)', 一 1)', 第 3 维 --1 说明 法 向 量 指向 下 方 。 法 向 量 在 xjxs 平 面 的 投影 是 Vf(x)， 它 指向 切 
平面 的 上 坡 方向 ，-VF(x) 指 向 切 平 面 的 下 坡 方向 ， 如 图 3-3 所 示 。 


变量 沿 任意 方向 d 的 运动 可 分 解 为 两 个 分 量 : 平行 于 Vf (x) 的 分 量 和 垂直 于 Vf (xX) 的 分 量 。 
有 Vaf (Xx) = 0。 自 变量 沿 d 的 运动 一 部 分 挫 在 了 垂直 分 量 上 , 这 部 分 运动 不 
会 导致 f(x) 变 化。 只 有 在 平行 于 Vf (xX) 的 分 量 上 的 运动 才 导 致 f(x) 变 化 。 所 以 f(x) 沿 d 的 变化 率 
就 打 了 折扣 ， 折 扣 系 数 是 平行 于 Vf (Xx) 的 分 量 所 占 的 “份额 ”一 一 cos 6， 如 图 3-5 所 示 。 


图 3-5 梯度 与 方向 导数 
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3.1.3” 偏 导数 


fx) 在 x 点 对 其 第 i 分 量 xi; 的 偏 导数 是 把 其 他 分 量 xj (j 到 i )， 当 作 常 数 时 f (x) 对 xi; 的 导数 。 这 
时 候 将 f(x) 看 作 关 于 xi 的 一 元 函数 。 根 据 导数 的 定义 : 


E00 = lm 人 (3.18 ) 


其 中 ,x + he’ 保 持 xy(j 冯 i) 不 变 ,只 让 xi 发 生变 化 ,变化 量 是 h。f(x) 有 n 个 偏 导数 :了 ,了 ，…, 
根据 式 (3.13 )， 有 : 


Vaf (WO) = EO = lm (3.19) 


f(x) 对 xi 的 偏 导数 就 是 f(x) 沿 ei 的 方向 导数 。 偏 导数 是 方向 导数 的 特例 ， 它 们 的 方向 是 各 个 
坐标 轴 的 正方 向 。 由 于 Vf (x) 与 ei 的 内 积 是 Vf(x) 的 第 i 分 量 Vf(x);, 根据 式 (3.17 ) 和 式 (3.19 )， 
有 : 


VO = Vf Te = Vf (=, i=Ln (3.20) 


所 以 梯度 Vf(x) 的 第 i 分 量 是 f(x) 对 自 变 量 第 i 分 量 x; 的 偏 导数 ， 于 是 梯度 就 是 : 


六 
Vf(x) = Er (3.21) 


f(x) 对 自 变 量 各 个 分 量 的 偏 导数 是 唯一 的 ， 所 以 Vf (Xx) 也 是 唯一 的 。 
3.1.4 了 驻 点 


函数 f(xX) 的 驻 点 ( stationary point ) 是 梯度 为 零 癌 量 的 点 。 驻 点 也 称 临界 点 〈critical point )。 
既然 驻 点 的 梯度 是 零 向 量 ， 所 以 Fo 在 驻 点 的 切 平面 的 法 癌 量 是 : 


0 
w = C2 = ; (3.22 ) 


一 工 
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驻 点 的 切 平面 的 法 向 量 w 垂 直 指向 下 方 ， 所 以 切 平 面 是 水 平 的 ， 如 图 3-6 所 示 。f (xX) 在 驻 点 
沿 任意 方向 d 的 方向 导数 是 YF(ord = 0， 所 以 f (x) 在 驻 点 向 任意 方向 的 变化 率 都 为 0。 


图 3-6。 驻 点 的 切 平 


3.1.5 局 部 极 小 点 


如 果 在 点 好 周围 存在 一 个 半径 为 s > 0 的 邻 域 ,该 邻 域内 所 有 点 的 函数 值 都 不 小 于 f(x’)， 
则 x* 是 f(x) 的 一 个 局 部 极 小 点 (local minima )， 用 公式 表示 就 是 : 


f(x) = f(x), llx—xl|<e ( 3.23) 


如 果 对 于 自 变 量 空间 的 所 有 xXx, 都 有 f(x) = f(x”), 则 x* 是 f(x) 的 全 局 最 小 点 ( global minima )。 
很 显然 , 全 局 最 小 点 是 局 部 极 小 点 。 但 是 局 部 极 小 点 不 一 定 是 全 局 最 小 点 。 类 似 还 可 以 定义 局 部 
极 大 点 (local maxima ) 和 全 局 最 大 点 ( global maxima )， 如 图 3-7 所 示 。 


AR 二 Fos 
时 a 局 部 极 大 点 计 oo 


(2, 2 BM 


. 
(2; 一 2 下 


图 3-7 局 部 极 小 /大 点 和 全 局 最 小 /大 点 


局 部 极 小 点 x" 一 定 是 驻 点 ， 即 ||Vf(x”) 川 = 0。 运 用 反 证 法 ,假设 |IVf(X”) 咱 去 0， 从 点 出 发 
沿 一 Vf(X”) 方 向 做 一 个 位 移 -tVf(x*)，t > 0， 因 为 1(X) 在 x* 可 导 ， 有 : 


f(x* — tvf(x")) = fx") — tvFXN + R(-tVf Cx’)) (3.24 ) 
只 (-tVFGc)) 是 位 移 -tVFCxc) 的 高 阶 无 穷 小 ， 于 是 有 : 
-tvf N+ RLVAXD)) _ R(tVAXD)) _ 
limeo 一 Po = VA XN + lime so ror = IVA (XY) < 0 (3.25 ) 


这 说 明 当 t 趋 近 于 0 时 , 式 (3.24 ) 的 后 两 项 的 极限 是 负 值 。 所 以 对 于 足够 小 的 e > 0, 当 t < s 
时 有 : 
f(x* —tvf(x")) — f(x) = tllvf Cx) + R(-tVfX)) < 0 (3.26 ) 
随 着 继续 靠近 0, x* 一 tVf(x*) 在 无 限 靠 近 x* 的 同时 保持 f(x” 一 tVf(x*)) < f(x")。 这 与 x 是 
fx) 的 局 部 极 小 点 矛盾 。 所 以 Vf (x”) 只 能 是 零 向 量 ， 即 x* 是 驻 点 。 类 似 可 以 证 明 ， 局 部 极 大 点 也 
一 定 是 驻 点 。 驻 点 是 局 部 极 小 点 的 必要 非 充 分 条 件 。 驻 点 也 有 可 能 是 局 部 极 大 点 或 者 鞍点 ( saddle 
point )。 贰 点 的 梯度 也 是 零 向 量 ， 但 在 任意 一 个 邻 域内 都 同时 存在 函数 值 更 大 的 点 和 更 小 的 点 ， 
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如 图 3-8 所 示 。 仅 靠 梯度 难以 判断 驻 点 的 类 型 ， 驻 点 的 类 型 可 由 蔡和森 矩阵 的 特征 值 揭示 ， 这 将 在 
下 一 章 讨 论 。 


图 3-8 ”鞍点 


3.2 梯度 下 降 法 


为 了 寻找 函数 的 全 局 最 小 点 ， 可 以 先 找 到 满足 必要 条 件 的 点 一 一 驻 点 。 根 据 定 义 ， 可 以 求 函 
数 的 梯度 ， 令 梯度 为 零 向 量 而 求 得 驻 点 ,但 大 多 数 时 候 这 并 不 可 行 。 举 个 简单 的 例子 ， 有 一 个 二 
次 型 (quadratic form ) 函数 : 


f x1,x2,.…, Xx") = ;Pej wiixixi (3.27 ) 
其 中 ，w” = w 产 。 该 二 次 型 对 每 一 个 自 变量 * 的 偏 导数 是 : 


21 -= D1 wi xi (3.28 ) 


oxi 


令 梯 度 是 零 向 量 ， 求 x1,x?,…,x”"。 这 是 解 n 元 一 次 方程 组 : 


Priwrixi=0, i=1,.,n (3.29 ) 
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一 般 情 况 下 这 需要 00z3) 的 时 间 复 杂 度 。 当 mn 非常 大 时 ( 这 在 神经 网 络 和 深度 学 习 中 是 必然 的 )， 
求 驻 点 的 解析 解 是 不 可 接受 的 。 这 还 仅仅 是 简单 的 二 次 型 的 情况 ， 当 情况 更 复杂 时 ， 驻 点 的 解析 
解 有 可 能 不 存在 ， 我 们 需要 迭代 的 数值 解法 。 


3.2.1 反 梯 度 场 


如 晒 (是 n 元 函数 ， 则 VF(o 是 nm 维 向 量 。 可 导 函 数 FCo 在 自 变 量 空间 中 每 一 个 点 都 有 一 个 
反 梯 度 向 量 _Vf(x)， 指 向 在 该 点 函数 值 下 降 最 快 的 方向 。 这 就 形成 了 一 个 速度 (向 量 ) 场 。 可 3 
以 将 -YF ooj 画 成 箭头 ， 尾 部 移 到 x 的 位 置 ， 以 这 种 方式 将 反 梯 度 场 呈 现 出 来 ， 如 图 3.9 所 示 。 


A BN 
| | 1 ~ 
| | 


图 3-9 反 梯 度 场 


速度 场 在 每 一 点 指定 了 该 位 置 的 速度 一 一 方向 和 速率 。 在 反 梯度 场 的 情况 下 ,速度 指向 函数 
值 下 降 最 快 的 方向 ,速率 大 小 是 函数 值 的 下 降 速 率 。 将 一 个 粒子 ( particle ) 从 任意 位 置 放 入 速度 
场 中 ， 它 就 会 按照 场 指 定 的 速度 运动 。 在 反 梯 度 场 的 情况 下 ,粒子 就 是 按照 梯度 反方 向 ， 朝 函数 
值 下 降 最 快 的 方向 运动 。 


这 里 解释 一 下 反 梯 度 场 的 物理 意义 。 在 2 维 情况 下 可 以 将 函数 图 像 看 作 一 幅 起 伏 不 平 的 地 形 ， 
设 重力 加 速度 的 大 小 是 g， 有 一 个 质量 是 mm 的 小 球 被 放 在 任意 位 置 。 地 面 对 小 球 的 支持 力 垂 直 于 
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坡 面 , 沿 着 该 位 置 的 切 平面 的 朝 上 的 法 向 量 (一 Vf (x) 一 Vf (Xx)2,1)7。 这 个 法 向 量 与 习 xz 平 面 的 来 
角 9 的 正切 是 tan9 = ||Vf(x)l|!1。 支 持 力 的 垂直 分 量 抵消 重力 mg ， 水 平分 量 的 大 小 则 是 
mg/tan9 = mg|IVf(x) 咱 ， 水 平分 量 的 方向 是 法 向 量 向 xix2 平 面 的 投影 -Vf (Xx) 的 方向 。 小 球 受 到 
的 水 平 作用 力 正 是 -mgVf (x)， 小 球 的 水 平 加 速度 就 是 -gVf(x)。 所 以 若 将 函数 图 形 看 作 地 形 ， 
反 梯 度 场 是 该 地 形 的 加 速度 场 ， 而 不 是 速度 场 ， 如 图 3-10 所 示 。 


. F=(=vf, 1)" 
4 4 


图 3-10 反 梯 度 场 的 物理 意义 


局 部 极 小 点 的 梯度 是 零 向 量 , 它们 是 反 梯 度 场 的 静止 点 。 如 果 一 个 粒子 处 于 静止 点 上 , 它 将 
保持 静止 。 同 理 , 局 部 极 大 点 也 是 静止 点 。 局 部 极 小 点 是 稳定 静止 点 , 或 者 说 吸引 子 ( attractor )。 
当 粒 子 偏离 局 部 极 小 点 一 个 小 位 移 , 它 将 被 吸引 回 局 部 极 小 点 。 局 部 极 大 点 是 不 稳定 静止 点 , 或 
者 说 排斥 子 〈repeller )。 当 粒子 位 于 局 部 极 大 点 时 ， 它 是 静止 的 ， 但 是 一 旦 有 一 个 微小 的 扰动 使 
它 发 生 极 小 的 位 移 ， 它 将 被 推 得 远离 局 部 极 大 点 ， 如 图 3-11 所 示 。 
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图 3-11 吸引 子 和 排斥 子 


可 以 从 任意 位 置 开 始 模拟 粒子 在 反 梯 度 场 中 的 运动 。 除 非 粒 子 的 初始 位 置 刚 好 是 静止 点 , 否 
则 粒子 将 向 函数 值 下 降 最 快 的 方向 ， 即 反 梯 度 方向 运动 , 并 最 终 逼 近 吸 引子 一 一 局 部 极 小 点 。 从 
理论 上 , 反 梯度 场 只 能 保证 粒子 运动 到 局 部 极 小 点 ,不 能 保证 运动 到 全 局 最 小 点 , 允 近 的 速度 也 
没有 保证 。 实际 算法 中 无 法 精确 模拟 粒子 的 连续 运动 ， 而 只 能 以 离散 迭代 的 方式 近似 ,这 会 带 来 
更 多 问题 ， 甚 至 不 收敛 。 


3.2.2 ”梯度 下 降 法 


在 计算 机 中 模拟 粒子 在 速度 场 中 的 运动 ， 这 属于 数值 积分 问题 。 梯 度 下 降 法 〈 gradient 
descent，GD ) 是 一 种 简单 的 数值 积分 算法 ， 伪 代码 如 下 : 


X0 二 随机 初始 化 

to0 

while ||Vf(x)||= e: 
Xttl e xt — n+ VAX') 
tot+1 

return xt 
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e > 0 是 一 个 预 设 的 靖 值 ， 当 lyFGol < s 时 ， 认 为 VF(oO) 已 经 足够 接近 零 向 量 ， 算 法 停止。 
也 可 以 采用 其 他 停止 标准 ， 例 如 循环 次 数 达 到 预 设 的 最 大 值 ， 或 者 函数 值 的 下 降幅 度 小 于 阔 值 。 
7 > 0 是 男 一 个 预 设 值 , 称 为 学 习 率 ( learning rate, LR ) 或 步 长 ,每 一 次 迭代 中 , 自 变量 向 一 Vf(X) 方 
向 运动 ， 运 动 的 距离 是 n : ||Vf(X)||。 


n 是 梯度 下 降 法 的 一 个 超 参数 (hyper parameter )。 我 们 可 以 保证 在 任意 x,， 能 够 找到 一 个 合适 
的 步 长 nx， 使 F(x 一 nxVf(x)) < f(x)， 也 就 是 说 ,保证 从 x 出 发 移动 nxVf (x)， 可 以 使 函数 值 下 
降 。 这 是 因为 : 


f(x — nvf 2)) = Fo — nlvf ON + R(—nvf (2%)) (3.30) 


其 中 ，R( 一 nxVf (x)) 是 -nxVf (x) 的 高 阶 无 穷 小 。 式 (3.30 ) 与 式 (3.24 ) 相似 ， 可 以 证 明 存 在 一 
个 es > 0， 当 nx < e 时 ,满足 f(x 一 nxVf(X)) < f(x)。 我 们 说 -Vf (Xx) 是 确保 下 降 的 方向 ， 但 确保 
下 降 只 是 理论 上 的 ， 因 为 不 同 x 的 mx 不 同 , 也 无 法 计算 出 7x 的 值 ， 所 以 只 能 使 用 固定 步 长 7。 在 固 
定 步 长 下 ， 每 一 次 更 新 不 一 定 确 保函 数值 下 降 。 


3.2.3 梯度 下 降 法 的 问题 


因为 梯度 只 包含 函数 的 局 部 线性 近似 信息 ， 在 距离 zx 较 远 的 地 方 ， 函 数 的 形状 会 较 大 地 偏离 
近似 超 平面 ,这 是 梯度 所 无 法 体现 的 。 如 果 n 设 置 得 过 大 ， 函数 值 有 可 能 不 降 反 升 。 较 小 的 n 更 有 
可 能 保证 函数 值 下 降 ， 但 是 如 果 1 过 小 ， 收 全 的 速度 会 很 慢 。 函 数 的 图 像 可 能 有 千奇百怪 的 “地 
形 "， 很 多 病态 情况 都 会 对 梯度 下 降 法 的 效果 产生 负面 影响 ， 这 里 举 几 个 例子 。 


“ 悬 岩 ”(cliff ) 如 图 3-12 所 示 。 局 部 极 小 点 位 于 悬崖 脚下 ， 靠 近 悬 岩 的 位 置 具 有 较 大 梯度 ， 
这 时 梯度 下 降 法 会 把 点 弹 得 远离 悬崖 ， 之 后 需要 很 多 次 迭代 才能 将 点 拉 回 基 崖 脚下 。 


“上 峡谷”( valley ) 如 图 3-13 所 示 。 局 部 极 小 点 在 谷底 ， 在 峡谷 壁 上 ， 反 梯度 方向 并 不 指向 局 
部 极 小 点 ， 而 是 指向 峡谷 对 侧 。 这 种 情况 下 ， 梯 度 下 降 法 会 发 生 震 荡 ， 轻 则 延缓 收敛 速度 ， 重 则 
导致 收敛 失败 。 下 一 章 介 绍 函 数 的 局 部 二 阶 特性 后 , 我 们 会 知道 峡谷 的 成 因 与 赫 森 矩阵 各 个 特征 
值 的 相对 大 小 有 关 。 
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“悬崖 ”对 梯度 下 降 法 的 影响 


图 3-12 


“峡谷 ”使 梯度 下 降 法 发 生 震 东 


图 3-13 
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“平原 ”( plain ) 如 图 3-14 所 示 。 在 这 样 的 区 域 里 梯度 的 模 非 常 小 ， 这 将 导致 收敛 缓慢 。 本 
节 仅 举 了 几 个 简单 直观 的 例子 , 来 说 明 复 杂 函 数 地 形 下 梯度 下 降 法 可 能 遇 到 的 困难 。 实 际 的 情况 
还 要 更 复杂 ， 也 更 难 直接 观察 。 


图 3-14 “平原 ”对 梯度 下 降 法 的 影响 


3.3 梯度 下 降 法 的 改进 


针对 梯度 下 降 法 的 问题 ， 人们 提出 了 一 些 改进 算法 。 这 些 算法 有 的 着 眼 于 调整 学 习 率 ,有 的 
对 搜索 方向 做 某 种 修正 。 它 们 都 是 原始 梯度 下 降 法 的 变 体 , 终归 还 是 利用 局 部 一 阶 信息 。 有 些 变 
体会 积累 历史 梯度 信息 ,根据 它们 调整 前 进 方向 。 积 累 梯度 的 历史 也 就 是 观察 梯度 的 变化 ,尝试 
从 梯度 的 历史 变化 中 提取 信息 , 模拟 函数 在 当前 位 置 的 二 阶 信息 。 二 阶 优化 算法 用 二 次 函数 在 局 
部 模拟 原 函 数 ， 是 一 种 更 精确 的 近似 。 


梯度 下 降 法 的 变 体 有 很 多 , 本 节 挑 选 了 在 原理 上 有 代表 性 的 , 并 有 前 后 承接 关系 的 五 种 进行 
讲解 。 它 们 是 学 习 率 调度 、 冲 量 法 、AdaGrad 、RMSProp 以 及 Adam。 


3.3.1 学 习 率 调度 
学 习 率 是 梯度 下 降 法 的 一 个 重要 超 参 数 , 它 对 算法 的 结果 和 效率 都 有 重要 的 影响 。 原始 梯度 
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下 降 法 采用 固定 步 长 ， 如 果 步 长 设置 得 过 大 ， 则 算法 有 可 能 不 收敛 , 或 者 因 震 荡 而 延缓 收敛 。 如 
果 步 长 设置 得 过 小 ， 收 敛 则 会 非常 缓慢 ,特别 是 在 梯度 较 小 的 “平原 ”地 带 。 学 习 率 对 算法 的 影 
响 如 图 3-15 所 示 。 


学 习 率 : 0. 95， 迭 代 次 数 : 187 学 习 率 :0. 80， 迭 代 次 数 ，100 


图 3-15 ”学 习 率 对 梯度 下 降 法 的 影响 


一 个 自然 而 然 的 想法 就 是 抛弃 固定 的 学 习 率 , 使 学 习 率 随 着 迭代 而 动态 调整 。 例 如 ， 当 发 现 
最 近 若 干 轮 迭 代 中 函数 值 下 降 较 快 ， 则 说 明 当 前 区 域 梯度 较 大 ,这 时 缩小 步 长 ; 反之 如 果 发 现 最 
近 若 干 轮 迭 代 中 区 数值 下 降 很 慢 ， 则 说 明 当 前 区 域 梯度 较 小 ,这 时 增加 步 长 。 或 者 当 训 练 开始 时 
采用 较 大 的 学 习 率 ， 随 着 迭代 逐渐 缩小 学 习 率 。 训 练 开始 时 可 以 假设 当前 距离 目标 尚 远 , 采用 较 
大 的 学 习 率 可 以 加 快 收敛 速度 。 而 随 着 训练 的 进行 ,点 逐渐 向 目标 靠近 ， 这 时 减 小 学 习 率 以 防止 
震荡 。 当 然 距离 目标 是 远 还 是 近 在 训练 时 是 不 知道 的 , 所 以 这 只 是 一 种 启发 式 的 策略 。 这 类 办 法 
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统称 学 习 率 调度 ( learning rate scheduling )。 


实验 表明 , 简单 的 学 习 率 指数 训 减 策略 ( exponential decay scheduling ) 就 能 取得 不 错 的 效果 。 
学 习 率 指数 衰减 的 公式 为 : 


nt minit. 10 环 (3.31 ) 


其 中 ,mt 是 初始 学 习 率 ，t 是 迭代 步 数 ， 超 参数 r 控 制 衰减 的 速度 。r 越 大 ， 则 衰减 越 慢 。 动 态 
学 习 率 m: 随 迭代 步 数 t 变 化 的 典型 曲线 如 图 3-16 所 示 。 


T + T T T 
0 500 1000 1500 2000 2500 3000 


图 3-16 ”指数 衰减 的 动态 学 习 率 随 迭 代步 数 变化 的 曲线 
将 学 习 率 指数 衰减 更 新 式 (3.31 ) 插入 到 原始 梯度 下 降 算 法 中 ， 伪 代码 如 下 : 


X0 < 随机 初始 化 

to0 

while |IVf(x)||= e: 
ne Tinit . 10 趟 
tT nt a Vf (x!) 
Gen 

return xt 


3.3.2 ” 冲 量 ; 


3.2.1 节 解 释 了 反 梯 度 场 的 物理 意义 ， 如 果 将 函数 图 像 视 作 重力 场 中 的 地 形 ， 那 么 反 梯度 场 
则 是 水 平 加 速度 场 ,而 不 是 速度 场 。 原 始 梯 度 下 降 法 相当 于 将 加 速度 场 当 作 速 度 场 , 模拟 粒子 在 
其 中 的 运动 。 冲 量 (momentum ) 法 则 恢复 了 反 梯 度 场 的 加 速度 场 本 质 ， 以 反 梯 度 向 量 为 水 平 加 
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速度 来 模拟 粒子 的 运动 ， 伪 代码 如 下 : 


X0 < 随机 初始 化 

vrco0 

teo0 

while ||vf(x)||= e: 
zttle Bvt —n: Vixt) 
xttl xt 十 vitl 
tot+l1 

return x! 


从 物理 角度 阐释 ， 学 习 率 7 就 是 一 个 时 间 单 元 ， 反 梯度 向 量 -VF(x9 现 在 是 加 速度 向 量 ， 速 
度 向 量 v! 累 积 了 从 运动 开始 以 来 的 速度 变化 ,为 了 避免 速度 变 得 无 限 大 , 冲 量 法 引入 了 摩擦 。v! 的 
更 新 式 中 的 0 < 8 < 1 相当 于 摩擦 系数 ( 实际 上 它 是 物理 意义 上 的 摩擦 系数 的 一 个 变 体 )。 如 果 梯 
度 不 变 ， 是 党 向 量 YF， 则 有 : 


v” = -Feop) Vf = -2 (3.32) 
i 可 见 如 果 梯度 保持 不 变 ， 冲 量 法 的 极限 更 新 量 是 原始 梯度 下 降 法 的 二。 如 果 B = 0.9， 则 冲 
量 法 最 终 将 趋 近 原始 梯度 下 降 法 10 倍 的 更 新 速度 。 如 果 梯 度 方向 有 变化 ， 冲 量 法 通过 将 之 前 的 

电 梯度 进行 滑动 平均 ， 能 起 到 减少 震荡 的 作用 。 


冲 量 法 有 一 个 变 体 :Nesterov 法 。 它 与 冲 量 法 的 区 别 在 于 v'+1 更 新 式 中 的 梯度 不 是 在 x 处 计 
算 ， 而 是 在 x + pz 处 计算 。 因 为 冲 量 法 的 更 新 式 可 以 写成 xt+tl1 -xt 十 Bvt! 一 nVf， 相 当 于 从 
Xt 十 B7: 出 发 前 进 -7VYF， 所 以 使 用 x+ B2zt 处 的 梯度 会 更 合适 。 


3.3.3 AdaGrad 


原始 梯度 下 降 法 对 反 梯 度 向 量 的 每 一 个 分 量 使 用 同样 的 学 习 率 。 用 标量 7 乘 -VFCx59 ， 是 对 
其 长 度 进 行 缩放 , 但 不 改变 其 方向 。AdaGrad 方法 会 为 反 梯度 向 量 的 每 一 个 分 量 适 配 一 个 不 同 的 
学 习 率 ， 这 样 就 等 于 对 前 进 方向 做 了 调整 ,偏离 了 反 梯 度 方 向 。 先 看 伪 代 码 : 


X0 和 随机 初始 化 

sS0 < 一 0 

上 < 二 0 

while ||lVf(x)||= e: 
Ss VA vA, 
Xt xt Nn:Vfx) OVsi@De 
tet+l1 

return x! 
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@@、@ 和 外 分 别 表示 将 两 个 向 量 的 对 应 元 素 相 乘 、 相 除 和 相 加 。Vf(x!') @ Vf (x') 计 算 f(x) 在 
Xx! 的 梯度 的 每 个 分 量 的 平方 , 将 其 累加 到 向 量 st+1+ 中 。e 是 一 个 所 有 分 量 都 是 微小 值 ( 例如 10-38 ) 
的 向 量 。 更 新 自 变量 时 , 将 st+1 与 e 的 对 应 分 量 相 加 后 开 方 , 除 梯度 的 每 一 分 量 , 得 到 前 进 方向 。 


St+1 的 每 个 分 量 是 算法 执行 至 此 时 梯度 每 个 分 量 的 非 中 心 方差 (二 阶 和 矩 ) 的 累加 。 如 果 梯 度 
的 某 一 分 量 一 直 较 大 , 则 AdaGrad 会 对 当前 梯度 的 这 个 分 量 做 压缩 , 减 小 该 分 量 上 的 更 新 量 , 对 
前 进 方 向 进行 调整 ， 如 图 3-17 所 示 。 


|so ”调整 后 的 方向 这 


yY 梯度 较 大 的 分 量 收缩 


一 vf 


一 7 


一 10.0 


图 3-17 AdaGrad 对 梯度 一 直 较 大 的 分 量 进行 惩罚 


下 一 章 介 绍 牛顿 法 后 ， 会 看 出 AdaGrad 是 试图 对 函数 局 部 二 阶 信 息 进行 粗 燃 的 估计 。 因 为 
AdaGrad 毕竟 没有 计算 二 阶 信息 ， 而 只 是 用 历史 一 阶 信息 模拟 二 阶 信息 ,所 以 它 还 是 属于 一 阶 优 
化 算法 。 因 为 累加 项 永远 是 正 值 , s+! 的 各 元 素 只 增 不 减 ,所 以 AdaGrad 还 有 学 习 率 衰减 的 效果 ， 
但 如 果 不 加 以 限制 ， 算 法 最 终 将 陷 人 停滞 。 


3.3.4 RMSProp 


AdaGrad 算法 对 梯度 的 每 一 个 分 量 积 累 历史 上 所 有 值 的 平方 和 ,调整 前 进 方向 时 ,各 分 量 会 
根据 自己 的 历史 值 平方 和 而 获得 不 同 的 权 值 ， 历 史 值 平 方 和 较 大 的 梯度 分 量 会 受到 较 大 的 惩罚 。 
但 使 用 梯度 的 全 部 历史 对 当前 梯度 进行 修正 是 不 适当 的 , 应 该 使 用 近期 一 个 时 间 窗 内 的 梯度 历史 

言 息 。 时 间 上 的 局 部 导致 空间 上 的 局 部 , 最 近 时 间 窗 内 的 梯度 历史 反映 的 是 函数 的 线性 近似 在 局 
部 的 变化 情况 ， 这 是 对 函数 局 部 二 阶 信息 更 合理 的 模拟 。 
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另外 ， 无 衰减 地 积累 梯度 分 量 的 历史 平方 和 ， 会 导致 权重 趋 近 于 0， 这 起 到 类 似 学 习 率 衰减 
的 作用 ,但 也 会 使 算法 最 终 陷 入 停滞 。 针 对 这 些 问题 ， RMSProp 对 AdaGrad 进行 了 改进 ， 其 伪 
代码 如 下 : 


X0 < 随机 初始 化 

sicO0 

teo0 

while ||Vf(x)||= e: 
srt eBs'+(1—pB): Vf(x') ® VIX') 
Xt ext nV) O Vs De 
Ga tl 

return xt 


RMSProp 引入 了 一 个 滑动 平均 系数 0 < 8 < 1。 每 次 累加 梯度 分 量 平方 时 ， 用 6 和 1 一 6 为 历 
史 累 加 值 和 当前 值 加 权 。RMSProp 引入 了 一 个 新 的 超 参 数 6， 一 般 情 况 取 B = 0.9 即 可 。 


3.3.5 Adam 


Adam 是 adaptive moment estimation 的 缩写 。Adam 算 法 结合 了 冲 量 法 和 RMSProp 的 思想 。 
先 来 看 它 的 伪 代 码 : 


X0 < 随机 初始 化 

sic0 

voc0 

to0 

while ||Vf(x)||= e: 
vitt > Bivt 已， (1 —p!) Vf (x') 
OGA 
i 

1-(BI1)t+1L 

t+1 
t+1 和 


5 A 1-—(B2)t+1 


xitl 2 Xt—1 .vitl © /St+1 个 € 
tot+i+l 
return xt 


在 每 一 轮 迭 代 中 , Adam 以 系数 0 < B1 < 1 计算 历史 梯度 的 滑动 平均 yr+1, 以 系数 0 < Bp2? < 1 
计算 梯度 各 分 量 平方 的 滑动 平均 s**1。 因为 ”和 s?* 用 零 向 量 初始 化 , 且 B? 和 PB? 接 近 1, pv"*? 和 st? 
在 达 代 初期 会 偏向 零 向 量 ， 故 在 迭代 初期 采用 一 个 小 于 1 的 值 做 分 母 进行 调整 ， 使 vt+1 和 s+1 远 
离 零 向 量 , 随 着 迭代 进行 ,分母 趋 近 于 1, 修正 效果 趋向 于 消失 。 Adam 用 vr'+1 和 sr*+1 更 新 自 变量 。 


Adam 的 超 参数 虽 多 , 但 默认 值 就 可 取得 不 错 的 效果 , 默认 取 p1 = 0.9 和 Bp? = 0.99。 由 于 st 的 
作用 ， 和 迭代 时 的 实际 步 长 会 发 生 衰减 ， 所 以 n 的 取 值 不 像 在 原始 梯度 下 降 中 那样 重要 ， 一般 
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例 的 函数 上 ， 各 种 变 


外 


始 梯度 下 降 法 和 几 种 变 体 的 效果 。 注 意 在 本 


7 = 0.001。 图 3-18 比较 了 原 


体 不 见得 优 于 原始 


梯度 下 降 。 


原始 梯度 下 降 ， 学 习 率 : 0. 90， 适 代 次 数 : 615 


原始 梯度 下 降 ， 学 习 率 : 0. 20， 友 代 次 数 : 2764 


AdaGrad， 学 习 率 :0. 20， 和 迭代 次 数 : 8100 


=0.80 


习 率 : 0. 20， 迭 代 次 数 : 523， 超 参数 B 


冲 量 法 ， 学 


=0.60 ,8B?= 0.90 


Adam， 学 习 率 ; 0. 20， 和 迭代 次 数 : 150， 超 参数 : 有 1 


习 率 : 0. 20， 先 代 次 数 : 102， 超 参数 ， B = 0.90 


RMSProp， 学 


图 3-18 原始 梯度 下 降 法 与 几 种 变 体 
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3.4 运用 梯度 下 降 法 训练 逻辑 回归 


运用 梯度 下 降 法 训练 逻辑 回归 ,需要 首先 计算 交叉 炉 损失 对 人 逻辑 回归 的 参数 wi( i = 1…,n ) 
和 b 的 梯度 。 计 算 梯度 需要 计算 交叉 炉 损 失 对 各 个 参数 的 偏 导数 。 交 又 炉 损失 是 每 一 个 训练 样本 
的 损失 的 平均 ， 第 i 个 训练 样本 {x',y3 的 损失 是 : 


—(1—y i) log— rt (3.33 ) 


证 机 ebtwlx 


loss(w, b|xi, y') = —y! log 


1 
1+e-b-wixt 


现在 计算 loss(w,b|xi,y') 对 wi 的 偏 导数 。 分 两 种 情况 考虑 :训练 样本 属于 正 类 ，y! = 1; 以 
及 训练 样本 属于 负 类 ，y' = 0。 当 y' = 1 时 : 


Oloss(wblxiy') _ eb-wix (—x 2 至 (1 — pi(w, b)) (—x}) i (7 一 pi(w,b)) x ( 3.34) 


Owj 1+e-b-wIxti 


其 中 ， 光 是 x 的 第 ) 分 量 ，pi(w,b) 是 逻辑 回归 对 xi 的 预测 概率 ， 将 其 视 为 关于 w 和 b 的 函数 。 当 
y! 二 0 时 ; 


i btwlxi ， : : 
Oloss(whblxy) -ee xi = pi(w,b)xi = — 人 — pi(w, b) ) (3.35) 


Owj 1+ebtwIxi 】 


喜闻乐见 的 事情 发 生 了 ， 两 种 情况 统一 成 一 种 情况 
Oloss(w,blxi,y!i) 二 
Owj 

在 继续 之 前 先 观察 一 下 式 ( 3.36 )， 括 号 中 的 yi 一 pi(w,b) 是 真实 标签 (1 或 0 ) 与 预测 概率 

之 差 。 这 个 差 可 以 看 作 模 型 在 样本 {xi,y'} 上 的 误差 。 更 新 参数 时 是 加 上 负 和 梯度 ， 所 以 

(yi 一 pi(w,)) 浊 会 被 加 到 w; 上。 y! 一 pi(wb) 是 真实 值 与 预测 概率 的 差距 ,这 个 差距 以 j 为 权重 

分 配 到 w; 上 。 误差 分 配 是 看 待 梯度 下 降 的 一 个 视角 ,在 后 文 介绍 神经 网 络 的 反 向 传播 算法 时 , 会 
看 到 误差 不 仅 在 同一 层 内 部 分 配 ， 还 要 在 层 与 层 之 间 分 配 。 


回 到 梯度 计算 中 来 , 损失 函数 loss(w,b) 是 对 全 部 训练 样本 的 损失 做 平均 ,所 以 loss(w,b) 对 w 
的 偏 导数 是 每 一 个 loss(w,b|xi,yi) 对 w; 的 偏 导 数 的 平均 : 


(yi— piCw, Db) ) (3.36) 


人 er 一 二 2 人 A 1 (人 —pi(w pb) )* (3.37 ) 
’ J 和 


Owj Owj 


现在 考察 loss(w,b|xi,yi) 对 b 的 偏 导数 ,类似 的 计算 揭示 y' = 1 和 y' = 0 两 种 情况 统一 成 一 个 
表达 式 : 


ol ,b i i g | 
DoesGwpz 切 = 一 (六 一 Pr 让】 43.38 ) 
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于 是 损失 也 数 loss(w,b) 对 b 的 偏 导数 就 是 : 


Oloss(w,b) 1 ol ,blxiyi 1 ， ; 
2 = Di os Xl,y!) ee 2 (7 到 pi(w, b)) (3.39) 


有 了 各 个 偏 导数 就 可 以 计算 loss(w,b) 对 w; (i = 1,…,n ) 和 8 的 梯度 了 : 


XI 
1 5 
Vloss(w,b) = 一 元 2 给 : (7 pi(w,b)) , (3.40 ) 
Xh 
1 


有 了 交叉 炉 损失 对 模型 参数 的 梯度 ， 就 可 以 应 用 梯度 下 降 法 训练 逻辑 回归 模型 了 ， 伪 代码 
如 下 : 


Ww? < 随机 初始 化 

b" < 随机 初始 化 

to0 

while llVloss(w:’,b)||= e: 


ba 
t+1 7 YAM i i Ek 场 
ww + 了 Za (y 一 Di(w )) 
2 
天 有 二 二 A (y: ee pi(wt,b!)) 
tot+l 
return wi’,b’ 


上 述 训练 过 程 本 质 上 是 根据 交叉 灶 损 失 的 梯度 更 新 模型 参数 , 但 我 们 可 以 抛 开 损失 函数 和 梯 
度 概念 来 观察 一 下 w 和 4b 的 更 新 公式 。 模 型 的 输出 pi(w, bp) 是 0 和 1 之 间 的 一 个 概率 值 ， 对 于 正 类 
训练 样本 ，y = 1， 我 们 希望 提高 pi(w,b)， 使 它 更 接近 1。 更 新 公式 中 yi 一 pi(w,b) 大 于 0， 如 
果 xj > 0， 对 wj 的 更 新 是 加 上 一 个 正 值 ， 如 果 驴 < 0， 对 wj 的 更 新 是 加 上 一 个 负 值 。 两 种 情况 都 
是 增加 wj 与 蛋 之 积 ， 也 就 是 增加 pi(w,b)。 对 于 负 类 训练 样本 ，yi = 0， 我 们 希望 降低 pi(w,b)， 
使 它 更 接近 0。 更 新 公式 中 yi 一 pi(w,b) 小 于 0， 如果 > 0， 对 wj 的 更 新 是 加 上 一 个 负 值 ， 如 果 
x < 0， 对 的 更 新 是 加 上 一 个 正 值 。 两 种 情况 都 是 减 小 w 与 xj 之 积 ， 也 就 是 减 小 pi(w,D。 


对 b 的 更 新 不 依赖 模型 输入 xX， 正 类 训练 样本 增 大 b， 负 类 训练 样本 压低 bp， 变 化 的 幅度 与 概 
率 p'(w,b) 和 理想 值 (1 或 0 ) 的 差距 有 关 。 训练 样本 上 模型 输出 概率 与 理想 值 差距 越 大 , 则 对 b 的 
影响 越 大 。 


每 一 个 训练 样本 都 将 模型 参数 向 对 自己 来 说 更 理想 的 方向 拉 , 梯度 下 降 算法 取 所 有 训练 样本 
的 更 新 的 平均 ， 所 有 训练 样本 的 “合力 ”将 模型 参数 拉 向 能 更 好 地 分 类 训练 集 的 方向 。 最 早 的 感 
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知 机 模型 的 更 新 规则 也 是 从 类 似 的 视角 出 发 , 但 是 每 一 次 更 新 只 取 一 个 训练 样本 , 将 模型 参数 拉 
向 它 更 理想 的 方向 ， 之 后 再 取 下 一 个 训练 样本 ， 如 此 循环 往复 。 


3.5 ”梯度 下 降 法 训练 逻辑 回归 的 Python 实现 


本 节 ， 我 们 用 原生 Python 以 及 Numpy 库 实现 逻辑 回归 模型 和 梯度 下 降 法 及 变 体 ， 将 其 用 于 
鸟 类 生态 类 群 二 分 类 问题 。 注意, 为 了 容易 阅读 并 能 清晰 地 展现 原理 ,本 书 代码 不 做 过 多 的 抽象 
和 封装 。 我 们 首先 实现 几 个 优化 器 ， 见 如 下 代码 : 


import numpy as np 


class Gradient: 


原始 梯度 下 降 


def init (self, learning rate = 0.001): 
self.learning rate = learning rate 


def delta(self, gradient): 


接受 当前 点 的 梯度 ， 给 出 前 进 向 量 : 学 习 率 乘 以 梯度 反方 向 


return -self.learning rate * gradient 


class Decay: 


La 


学 习 率 衰减 

def _ init (self, learning rate = 0.001, r = 500) : 
self.learning rate = learning rate 
SCE 
self.global steps = 0 


de 


中 


delta(self, gradient): 


接受 当前 点 的 梯度 ， 给 出 前 进 向 量 。 根 据 学 习 率 衰减 公式 调整 学 习 率 
eta = self.learning rate * 10 ** (-self.global steps / self.r) 
self.global steps += 1 

return -eta * gradient 


02 
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class Momentum: 


mn 


冲 量 梯度 下 降 

def _init (self, learning rate = 0.001，beta = 0.9): 
self.learning rate = learning rate 
self.v = None 
self.beta = beta 


def delta(self, gradient): 


mn 


接受 当前 点 的 梯度 ， 给 出 前 进 向 量 。 加 入 冲 量 机 制 
if self.v is None: 
# 将 vV 初始化 为 与 梯度 同 维 数 的 全 零 向 量 
self.v = np.mat(np.zeros(gradient.shape[0])).T 


self.v = Self.beta * self.v - self.learning rate * gradient 
return self.v 


class AdaGrad: 


mm 


AdaGrad 

def init (self, learning rate = 0.001): 
self.learning rate = learning rate 
self.s = None 


def delta(self, gradient): 


nnn 


接受 当前 点 的 梯度 ,根据 AdaGrad 算法 得 到 前 进 向 量 
if self.s is None: 
# 将 s 初始 化 为 与 梯度 同 维 数 的 全 零 向 量 
self.s = np.mat(np.zeros(gradient.shape[0])).T 


self.s = self.s + np.power(gradient, 2) 
return -self.learning rate * gradient / np.sqrt(self.s + 1e-10) 


class RMSProp: 


mn 


RMSProp 


mn 
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def 


def 


_init (self, learning rate = 0.001, beta = 0.9): 
self.learning rate = learning rate 

self.s = None 

self.beta = beta 


delta(self, gradient): 


mam 


接受 当前 点 的 梯度 ， 根 据 RMSProp 算法 得 到 前 进 向 量 


mam 


if self.s is None: 
# 将 s 初始 化 为 与 梯度 同 维 数 的 全 零 向 量 
self.s = np.mat(np.zeros(gradient.shape[0])).T 


self.s = self.beta * self.s + (1 - self.beta) * np.power(gradient，2) 
return -self.learning rate * gradient / np.sqrt(self.s + 1e-10) 


class Adam: 


Adam 


mn 


def 


def 


_ init (self, learning rate = 0.001, beta 1 = 0.9, beta 2 = 0.99): 
self.learning rate = learning rate 

self.s = None 

self.v = None 

self.beta 1 = beta 1 

self.beta 2 = beta 2 

self.global steps = 0 


delta(self, gradient): 


mam 


接受 当前 点 的 梯度 ,根据 Adam 算法 得 到 前 进 向 量 


mam 


if self.s is None or self.v is None: 
# 将 s 初始 化 为 与 梯度 同 维 数 的 全 零 向 量 
self.s = np.mat(np.zeros(gradient.shape[0])).T 
# 将 V 初始 化 为 与 梯度 同 维 数 的 全 零 向 量 
self.v = np.mat(np.zeros(gradient.shape[0])).T 


self.v = self.beta 1 * self.v + (1 - self.beta 1) * gradient 
self.s = self.beta 2 * self.s + (1 - self.beta 2) * np.power(gradient, 2) 


self.v = self.v / (1 - self.beta 1 ** (self.global steps + 1)) 
self.s = self.s / (1 - self.beta 2 ** (self.global steps + 1)) 
self.global steps += 1 


return -self.learning rate * self.v / np.sqrt(self.s + 1e-10) 
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我 们 将 原始 梯度 下 降 法 、 学 习 率 衰减 、 冲 量 法 、AdaGrad、RMSProp 和 Adam 封装 成 类 ， 构 
造 时 传人 相关 超 参数 。 这 些 类 的 delta 方法 接受 当前 梯度 向 量 ,， 返回 更 新 向 量 。 算 法 需要 保存 的 
状态 都 放 在 类 的 成 员 变 量 中 。 接 下 来 我 们 实现 逻辑 回归 ， 见 如 下 代码 : 


from optimizer import * 
import numpy as np 


class LogisticRegression: 
def init (self, optimizer, iterations = 100000): 
assert(optimizer is not None) 


self.optimizer = optimizer 
self.iterations = iterations # 壕 代 次 数 


def train(self, x, y): 


mn 


X 为 矩阵 ， 形 状 是 mn_ samples * mn features ,每 一 行为 一 个 样本 
y 为 矩阵 ， 形 状 是 n_samples * 1， 元 素 为 样本 的 标签 ， 正 类 为 1， 负 类 为 0 


mn 


# 在 X 最 前 面 添加 一 列 常 数 1， 作 为 偏 置 值 的 输入 ， 以 简化 公式 
x= np.mat(np.c [[1.0] * x.shape[0], x]) 


# 根据 X 的 列 数 ( 特 征 数 ) 随机 初始 化 权 值 ， 此 时 偏 置 值 纳 入 了 权 值 向 量 ， 相 当 于 第 一 个 权 值 
# 权 值 向 量 为 n_features + 1 维 向 量 ， 每 个 分 量 以 0 均值 、0.01 标准 差 的 正 态 分 布 初始 化 
self.weights = np.mat(np.random.normal(0, 0.01, size=x.shape[1])).T 


for i in range(self.iterations): 


# 计算 当前 模型 对 训练 集 样本 的 输出 
p = self.predict(x, False) 


gradient = -x.T * (y - p) / x.shape[0] # 交叉 粒 损 失 对 模型 参数 的 梯度 
self.weights += self.optimizer.delta(gradient) # 更 新 模型 参数 


# 评估 当前 模型 并 打印 训练 信息 
if i % 100 == 0: 
# 交叉 粒 损 失 
cross entropy = (-y.T * np.log(p) - (1.0 - y).T * np.log(1 - p)) / y.shape[0] 


# 正确 率 
accuracy = np.sum(((p > 0.5).astype(np.int) == y). 
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astype(np.int)) / y.shape[o] 


print(" 迁 代 : {:dj， 交 又 灶 : {:.6f}， 正 确 率 : {:.2f}%".format( 
i + 1, cross entropy[0, 0], accuracy * 100)) 


def predict(self, x, augment = True): 
预测 函数 。X 为 和 矩阵， 形状 是 mn_ samples * n_features， 每 一 行为 一 个 样本 
augment 参数 指示 是 否 要 在 特征 矩阵 前 添加 一 列 常量 1 
# 在 X 最 前 面 添加 一 列 常数 1， 作 为 偏 置 值 的 输入 
if augment : 
x=np.mat(np.c [[1.0] * x.shape[0], x]) 


a = -np.matmul(x, self.weights) 
a[a > 1e2] = 1e2 # 防止 数值 过 大 
p= 1.0/ (1.0 + np.power(np.e, a)) 


# 剪裁 概率 值 ， 保 证 其 为 合法 的 概率 值 
plp >= 1.0] = 1.0 - 1e-10 


plp <= 0.0] = 1e-10 


return p 


我 们 将 逻辑 回归 算法 封装 成 一 个 类 LogisticRegression， 它 的 构造 函数 接受 一 个 optimizer 
对 象 和 迭代 次 数 。 每 次 迭代 ， 计 算 训练 集 全 体 样 本 的 平均 交叉 信 对 模型 参数 的 梯度 ， 之 后 调用 
optimizer 对 象 的 delta 方法 ， 得 到 更 新 向 量 并 更 新 参数 。 注 意 ， 我 们 给 特征 矩阵 添加 一 列 ， 列 
中 所 有 元 素 都 是 常量 1。 这 相当 于 给 每 个 样本 添加 一 个 永远 为 1 的 “特征 ”， 将 该 “特征 ”作为 
偏 置 值 的 输入 。 这 样 做 可 以 将 偏 置 值 纳 入 权 值 向 量 ， 简 化 公式 。 接 下 来 我 们 将 这 个 逻辑 回归 模型 
应 用 于 鸟 类 生态 类 群 问题 ， 代 码 如 下 : 


import pandas as pd 

import numpy as np 

from optimizer import * 

from lr import LogisticRegression 

from sklearn.metrics import accuracy score, precision score, recall]l score, roc auc score 


# 读 入 数据 
bird = pd.read csv("bird.csv").dropna().drop("id", axis=1) 


# 根据 标签 是 否 属 于 "SW"，"W"，"R" 三 类 ,构造 二 分 类 1/0 标签 
bird["type"] = bird.type.apply(lambda t: t in ["SW", "W", "R"]).astype(np.int) 
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data = bird.values 
# 将 样本 随机 洗 牌 
np.random.shuffle(data) 


# 前 300 个 样本 作为 训练 集 
train x = np.mat(data[:300,:-1]) 
train y = np.mat(data[:300,-1]).T 


# 其 余 样本 作为 测试 集 
test x = np.mat(data[300:,:-1]) 
test y = np.mat(data[300:,-1]).T 


# 构造 逻辑 回归 对 象 ， 优 化 器 为 Adam， 各 超 参数 取 默 认 值 
lr = LogisticRegression(Adam()) 


# 在 训练 集 上 训练 


lr.train(train x, train y) 


# 对 测试 集 进行 预测 
p = lr.predict(test x) # 模型 预测 的 正 类 概率 
pred = (p > 0.5).astype(np.int) # 以 0.5 为 阅 值 时 ， 模型 预测 的 类 别 


piint(" 正 确 率 : {:.2f}%， 查 准 率 : {:.2f}%， 查 全 率 : {:.2f}%，ROC 曲线 下 面积 : {:.3f}".format( 
accuracy_score(test y, pred) * 100， 
precision score(test y, pred) * 100， 
recall score(test y, pred) * 100， 
roc auc score(test y.A, p))) 


首先 使 用 pandas 库 读 入 数据 集 bird.csv 文件 ， 去 掉 含有 空 值 的 行 ， 再 去 掉 名 为 “id” 的 列 。 
之 后 ,根据 type 列 的 值 是 否 属 于 大 型 鸟 而 取 1 或 0, 并 重新 赋值 type 列 。 将 特征 和 标签 当 作 numpy 
数组 取出 ， 随 机 扰乱 行 的 顺序 。 取 前 300 行 作为 训练 集 ， 后 113 行 作 为 测试 集 。 


构造 LogisticRegression 对 象 ， 传 给 构造 函数 一 个 Adam 对 象 ， 超 参数 都 取 默 认 值 ， 迭 代数 
量 也 取 默 认 值 。 调 用 LogisticRegression 对 象 的 train 方法 ,参数 是 训练 集 的 特征 和 矩阵 和 标签 向 
量 。 训 练 过 程 中 ， 每 100 次 迭代 ， 打 印 当 前 模型 在 训练 集 上 的 交 又 炉 和 正确 率 。 若 运行 该 代码 ， 
可 以 看 到 随 着 训练 进行 ， 训 练 集 上 的 交叉 炉 在 下 降 而 正确 率 在 上 升 。 


训练 完成 后 , 用 LogisticRegression 对 象 对 测试 集 样 本 做 预测 ， 输 出 预测 为 正 类 的 概率 。 以 
0.5 为 概率 阔 值 ， 得 到 模型 对 测试 集 预 测 的 类 别 。 之 后 ， 调 用 scikit-learn 库 的 accuracy_score、 
precision_score \recall_ score 以 及 roc_auc_score 函数 计算 模型 在 测试 集 上 的 正确 率 查 准 率 、 
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查 全 率 以 及 ROC 曲线 下 的 面积 。 读 者 可 以 自行 试验 这 份 代码 ， 替 换 不 同 的 optimizer 并 观察 模 
型 的 表现 。 


3.6 ”小结 


梯度 包含 了 多 元 函数 的 局 部 一 阶 近似 信息 。 根据 梯度 可 以 得 到 函数 沿 自 变量 空间 中 任意 方向 
的 变化 率 。 函 数 在 某 一 点 梯度 决定 了 函数 在 该 点 的 切 平 面 的 法 向 量 。 当 自 变 量 为 2 维 时 ,我 们 可 
直观 地 从 函数 图 像 中 看 出 , 梯度 指向 的 方向 是 该 点 切 平面 的 上 坡 方 向 。 函数 沿 梯度 方向 具有 最 
大 的 、 正 的 方向 导数 。 梯 度 的 反方 向 是 该 点 切 平面 的 下 坡 方向 ， 函 数 沿 梯度 反方 向 具有 最 小 的 、 
负 的 方向 导数 。 梯 度 反 方向 是 函数 值 下 降 最 快 的 方向 ,在 每 一 次 迭代 中 , 沿 着 当前 点 的 梯度 反方 
向 运动 一 个 距离 ， 这 就 是 梯度 下 降 法 。 


> 


仿 射 函数 是 一 次 函数 ， 没 有 二 次 或 高 次 项 ， 其 图 像 是 “ 平 直 ”的 一 一 直线 、 平 面 和 超 平面 。 
线性 近似 是 函数 在 局 部 的 最 粗 烟 的 近似 ， 当 自 变 量 远离 当前 点 , 基于 当前 点 梯度 的 线性 近似 有 可 
能 与 原 函 数 大 相 径 庭 , 所 以 梯度 下 降 法 是 一 种 缺乏 远见 的 贪心 算法 。 如 果 用 更 高 次 的 函数 一 一 例 
如 二 次 函数 一 一 在 局 部 拟 合 原 函 数 , 则 可 以 得 到 对 原 函 数 的 更 精确 的 近似 , 以 及 关于 函数 局 部 形 
态 的 更 丰富 的 信息 ， 这 称 为 二 阶 近 似 。 下 一 章 我 们 将 介绍 基于 函数 局 部 二 阶 信 息 的 优化 算法 。 


超越 栎 度 下 降 


梯度 下 降 法 只 参考 函数 的 局 部 一 阶 特性 , 本 章 将 介绍 多 元 函数 的 局 部 二 阶 特性 以 及 基于 二 阶 
特性 的 优化 算法 。 想 要 理解 函数 的 局 部 二 阶 特性 ， 必 须 先 掌 握 矩 阵 这 个 工具 。 本 章 首先 回顾 矩阵 
的 相关 知识 ,包括 矩阵 的 定义 、 运 算 、 逆 和 矩阵、 特征 值 与 特征 向 量 、 谱 分 解 、 奇 异 值 分 解 以 及 二 


次 型 。 


函数 的 局 部 一 阶 特性 列 含 在 梯度 向 量 之 中 , 局 部 二 阶 特性 蕴含 在 赫 森 矩阵 之 中 。 利 用 梯度 可 
以 在 某 点 附近 以 仿 射 函 数 近似 原 函数 ,这 个 仿 射 函 数 是 原 函 数 在 该 点 的 一 阶 泰勒 展开 。 更 进一步 ， 
利用 赫 森 和 矩阵 可 以 在 某 点 附近 以 二 次 函数 近似 原 函 数 , 这 个 二 次 函数 是 原 函 数 在 该 点 的 二 阶 泰勒 
展开 。 只 靠 梯度 无 法 确定 驻 点 的 类 型 ， 而 如 果 赫 森 和 矩阵 非 奇异 , 则 可 以 用 赫 森 矩阵 的 特征 值 确 定 


驻 点 的 类 型 。 总 之 ， 利 用 二 阶 特性 可 以 得 到 更 多 关于 函数 局 部 形态 的 信息 。 


掌握 了 相关 数学 工具 后 , 我 们 介绍 两 个 基于 函数 局 部 二 阶 特性 的 优化 算法 : 牛顿 法 和 共 轿 方 
向 法 。 我 们 将 细致 讲解 这 两 种 算法 的 原理 和 实现 。 最 后 , 我们 介绍 如 何 运用 牛顿 法 训练 逻辑 回归 
模型 。 通 过 本 章 ， 读 者 可 以 对 函数 的 局 部 形态 有 更 深刻 的 理解 ， 并 洁 握 二 阶 优化 算法 的 精髓 。 


4.1 和 矩阵 


本 首先 回顾 矩阵 的 相关 知识 。 这 不 是 一 篇 关于 矩阵 的 全 面 介绍 ,而 只 包含 理解 赫 森 矩阵 所 


必需 的 知识 点 。 本 节 是 1.2 节 的 延续 ， 从 向 量 进入 和 矩阵， 阅读 完 本 节 ， 读 者 就 具备 了 到 
续 内 容 的 全 部 线性 代数 知识 。 


4.1.1 和 矩阵 基础 
和 矩阵 ( matrix ) 是 由 标量 构成 的 2 维 阵 列 。 以 一 个 3x3 和 矩阵 为 例 : 


E 解 本 书后 
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T 
Q11 Q12 Q13 Ql 
A=|[Q21 Q22 023 |= (al ao Qs)= | 吗 ， (4.1) 


0Q31 032 Q3,3 aT 
站 


本 书 用 黑 和 斜体 大 写字 母 表示 甜 阵 ， 例 如 4。 标 量 ai,j 是 抢 阵 4 的 第 而 、 第 / 列 元 素 。a,y 表 示 和 矩 
阵 4 的 第 ) 列 ， 它 是 一 个 列 向 量 : 
Q1,j 
Qj 二 (中 (4.2 ) 
Q3,j 


ai, 也 是 一 个 列 向 量 ， 它 的 转 置 是 矩阵 4 的 第 ; 行 : 


ix 二 (| (4.3 ) 


Qi,3 


和 矩阵 的 行 本 来 是 行 向 量 ,， 但 我 们 用 列 向 量 @i 表 示 这 个 行 向 量 的 转 置 。 算 阵 的 行 数 和 列 数 不 
一 定 相 等 ， 其 形状 可 以 是 m xm (mn): 


Q11 “*** Qn 
Amxn -| : : | (4.4) 


Qm1 “* QQmn 


在 不 会 引起 混淆 时 ， 一 般 可 省 略 脚 标 m x?。 两 个 相同 形状 的 矩阵 可 以 相 加 : 


ai1 十 Di an 十 Din 
A+B= : 和 (4.5 ) 


Qm,1 十 bm,1 “QQmn 十 bmn 


矩阵 相 加 就 是 把 它们 的 对 应 元 素 相 加 。 可 以 用 标量 : 乘 一 个 矩阵 : 


Kai1l … Kaan 
kA = 区 (4.6 ) 
kam1 … kamn 
-4 就 是 用 -1 乘 4。 显 然 有 4 -4 = 4+(-4) = 0。0 是 所 有 元 素 都 为 0 的 矩阵 一 一 零 和 矩阵 。 
矩阵 4 的 转 置 定义 为 : 
QU11 QUm,1 a 
AT= ( ns : | = (au az。 Q3x)= | al, (4.7) 
Qin “YY QQmmn aa 


47 把 4 的 行当 作 列 ， 把 4 的 列 当 作 行 。 如 果 4 是 m xm 的 ， 那 么 4 就 是 n x m 的 。 和 矩阵 可 以 与 
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向 量 相 乘 。 如 果 和 矩阵 4 是 m xm 的 ， 则 它 可 以 与 一 个 " 维 向 量 x 相 乘 : 


4x = 2 Xj Qj ( 4.8 ) 


和 矩阵 4 与 向 量 x 的 乘积 是 用 x 的 分 量 对 矩阵 的 列 线性 组 合 ， 所 以 4 的 列 数 和 x 的 维 数 必须 相同 。 
4 与 x 的 乘积 是 一 个 m 维 向 量 。 容 易 看 出 4x 的 第 i 个 元 素 是 ?1 xjaij = qb.x， 即 4 的 第 i 行 与 x 的 内 
上 让。 有 了 和 矩阵 和 向 量 的 乘积 的 定义 ， 就 可 以 定义 矩阵 与 矩阵 相 乘 : 


AB = (Ab,1 Ab, » Ep Ab, x) (4.9 ) 


4 与 鼠 的 乘积 是 矩阵 , 记 作 4B。AB 的 第 j 列 是 4 与 B 的 第 j 列 的 乘积 。 如 果 A 是 m x n 的 ,那么 B 的 
列 b,j (j= 1…,k) 必须 是 n 维 向 量 ， 即 B 必 须 为 n 行 。 只 有 这 样 4 才能 与 这 些 列 相 乘 。 而 B 的 列 
数 k 是 任意 的 。 所 以 要 能 够 与 m x n 的 4 相 乘 ，B 的 形状 必须 是 n x k，k 任 意 。 容 易 看 出 ，AB 的 形 
状 是 m x k。AB 的 第 i 行 、 第 j 列 元 素 是 4 的 第 i 行 与 B 的 第 j 列 的 内 积 : 


aq. 二 25-1 aisbs,j (4.10 ) 


即使 4 能 与 B 相 乘 , B 也 不 一 定 能 与 4 相 乘 , 因为 B 的 列 数 k 不 一 定 等 于 4 的 行 数 m。 当 k = m 时 ， 
B 可 以 与 4 相 乘 , 但 B4 不 一 定 等 于 4B， 即 矩阵 乘法 不 满足 交换 律 。 一 个 反例 就 可 以 证 明 这 一 点 ， 
这 里 不 再 蒙 述 。 和 矩阵 的 乘法 满足 结合 率 : 


(AB)C = 4(BC) (4.11 ) 
和 矩阵 乘法 和 加 法 满足 分 配 律 
A(B+C)=AB+AC, (A+B)C=AC+BC (4.12) 
和 抢 阵 乘法 和 标量 乘法 满足 结合 律 ; 
A(kB) = (kA)B = Kk(AB) (4.13) 
和 矩阵 的 标量 乘法 对 和 抢 阵 加 法 满足 分 配 率 : 
kK(A+B)= kA+KkKB, (kKk+h)A=kA+hA (4.14) 
和 窍 阵 4 和 有 的 乘积 的 转 置 是 : 
(4B)T = BT4T (4.15 ) 


n 维 向 量 x 的 转 置 x7 是 行 向 量 ， 也 可 视 为 1 xm 的 矩阵 ， 它 可 以 乘 另 一 个 和 矩阵 4: 


XIT4 = (ATXx)T (4.16 ) 
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上 述 几 条 定律 的 证 明 很 简单 , 只 需要 检查 一 下 等 式 两 边 每 一 个 元 素 的 值 即 可 , 此 处 省 略 细节 。 
若 把 列 向 量 和 行 向 量 分 别 看 作 n x 1 和 1 x n 的 矩阵 ， 则 算 阵 与 向 量 的 乘法 也 满足 这 几 条 定律 。 行 
数 和 列 数 相同 的 和 矩阵 称 为 方 阵 (square matrix )， 其 形状 为 n x n。 方 阵 4 的 对 角 线 元 素 之 和 称 为 它 
的 迹 (trace ): 


tr(A) = Bi air (4.17) 
对 于 方 阵 4 和 B，AB 的 迹 等 于 BA 的 迹 ， 这 是 因为 : 


T 
tr(AB) = Diiaisb,i = Di D1 aiibii = > 六 :1 Di briaij 


一 六 和 bl,a., / = tr(BA) (4.18) 4 
如 果 一 个 n x n 的 方 阵 的 对 角 线 元 素 都 是 1， 其 余 元 素 都 是 0， 那 么 它 称 为 单位 矩阵 ( unit 


matrix )， 记 作 Lxn: 
1 ... 0 
一 ( “ (4.19) 
0 ... 1 


容易 验证 对 于 任何 和 矩阵 Ayxn > 都 有 ImxmAmxn A ln A o 在 不 会 混淆 时 » 一 般 
省 略 ! 的 脚 标 。 


4.1.2 德 阵 的 逆 
如 果 对 于 n x 7 方 阵 4， 存 在 一 个 同形 状 的 方 阵 ， 记 作 4-!:， 满 足 : 


44-1=4-14=T (4.20 ) 


则 称 4 是 可 道 的 (invertible ) 或 非 奇 异 的 (nonsingular )。4-:! 称 为 4 的 闭 算 阵 。4 的 逆 和 矩阵 是 唯 
的 ， 因 为 假如 和 抢 阵 中 也 是 4 的 逆 和 矩阵 ， 根 据 定义 有 ; 


B=IB=A 4B=A-! (4.21) 


如 果 4 是 可 北 的 ， 那么 它 的 转 置 47 也 是 可 逆 的 ， 因 为 : 


(4-1)TAT = (44-1)T=1, AT(A-1)T= (4-14)7=7 (4.22) 


所 以 有 (40D- = (49)I。 可 道 矩 阵 4 的 列 线性 独立 ， 因 为 假如 4 的 列 a.j (7 = 1,…,n) 是 线 
性 相关 的 ， 则 存在 一 组 不 全 为 0 的 系数 wl,w2,…,w”， 满 足 站 -1 wjiasj = 0。 现 在 构造 向 量 
w = (wl…w")1。 显 然 w 头 0， 并 有 是 有: 


Aw=0 (4.23 ) 


因为 4 是 可 逆 的 ， 所 以 必然 存在 4-! ， 满 足 : 
w=4-4w=4-10=0 (4.24 ) 


这 与 w 关 0 矛盾 ， 所 以 可 逆 矩 阵 4 的 列 asj (j = 14…,n ) 一 定 线性 独立 。 如 果 方 阵 4 的 逆 和 矩阵 
是 47， 则 称 4 为 正 交 和 矩阵 : 


44T = ATA=I (4.25 ) 


从 式 (4.25 ) 可 以 看 出 正 交 矩阵 4 的 列 a.j (7 = 1,…,n ) 是 单位 向 量 ， 且 两 两 正 交 : 


Rs (4.26 ) 


了 二 7 
QxiQ:j = 1, i=] 


因为 正 交 和 矩阵 4 是 可 道 的 ， 所 以 它 的 列 @,j;(j = 1,…,n ) 是 线性 独立 的 。 这 些 列 是 n 维 线性 
空间 R" 的 一 组 基 , 并 且 因 为 它们 两 两 正 交 而 且 是 单位 向 量 , 所 以 它们 被 称 为 R" 的 一 组 标准 正 交 基 。 


如 果 一 组 向 量 x: (i = 1…,n) 是 线性 独立 的 ， 则 可 以 通过 施 密 特 正 交 化 过 程 ( Schmidt 
orthogonalization ) 构造 一 组 两 两 正 交 的 向 量 X' (i = 1,…,n )。 具 体 过 程 是 ， 首 先 令 Xi = x1， 然 


后 令 : 


2)T~1 2 
充 2 一 x2— 7) 于 2 .2 zcosezi ~ 
4 (XI)TX1 Wt ET (4.27 ) 


其 中 , 962 是 xz 与 妈 的 夹 角 。 式 (4.27 ) 的 本 质 是 ， 匀 等 于 x? 减 去 x 向 区 的 投影 。 因 为 Xx? 与 Xt = x! 
线性 独立 ， 所 以 x? 一 定 不 是 X! 的 标量 乘积 ， 于 是 不 是 零 向 量 , 而 且 容 易 验 证 X? 与 X! 正 交 。 接 着 
再 令 : 


Ts TT 
和 = x3 (x3) Xl El (x3) X2 和 2 一 x3 lzsllcosesiz ~1 lx3llcos032 ~2 


(ETA (X2) TX2 12 lx2ll 


(4.28) 
其 中 , 931 是 x 与 的 夹 角 , 63, 是 x 与 的 夹 角 , 式 (4.28 ) 的 本 质 是 , 甜 等 于 xz3 减 去 X3 向 妈 和 和 好 张 


成 空间 的 投影 。 寡 一 定 不 是 零 向 量 ， 因 为 如 果 知 = 0， 那么 妇 就 可 以 被 媚 和 礼 线性 表 出 ， 也 就 可 
以 被 宇和 zx? 线性 表 出 ， 这 与 xi (i = 1…,n ) 线性 独立 矛盾 。 容 易 验 证 涪 正 交 于 各 和 2?。 


此 过 程 继 续 下 去 ,最 终 可 构造 一 组 正 交 问 量 Xi (i = 1,…,n )。 因 为 它们 两 两 正 交 ， 所 以 它们 
也 线性 独立 。 把 (i = 1,…,n ) 的 每 一 个 向 量 标准 化 ( 除 以 模 )， 就 得 到 了 一 组 两 两 正 交 的 单位 
向 量 ， 这 就 是 施 密 特 正 交 化 过 程 。 


4.1 纸 阵 73 


4.1.3 ”特征 值 与 特征 向 量 
用 方 阵 4 乘 向 量 x， 相 当 于 在 R" 中 对 x 做 一 个 变换 ， 将 x 变换 成 4x， 例 如 方 阵 : 


R= (ee | 


Sing cosg (4.29) 


用 R 乘 向 量 x 等 于 将 x 逆 时 针 旋 转 9 度 。 任 何方 阵 4 也 改变 不 了 零 向 量 ， 因 为 40 = 0。 如 果 对 
于 非 零 向 量 v，4 只 能 改变 v 的 长 度 而 不 能 改变 它 的 方向 ， 即 存在 某 个 标量 4 ( 可 以 为 0), 满足: 


47 = 17 (4.30 ) 


则 称 4 是 4 的 特征 值 (eigenvalue )，27 是 4 的 属于 特征 值 4 的 特征 向 量 (eigenvector )。 同 一 个 特征 向 
量 不 可 能 属于 两 个 不 同 特征 值 ， 因 为 假如 特征 向 量 z 属 于 特征 值守 和 委 ， 且 社 关 天， 那么 : 


(MA)v=Av—-ALv=Av-Av=0 (4.31) 


但 全 一 玫 和 0， 则 只 可 能 = 0， 这 与 特征 向 量 是 非 零 向 量 矛 盾 ， 所 以 同一 个 特征 向 量 不 可 
属于 两 个 不 同 的 特征 值 ,但 同一 个 特征 值 可 以 拥有 多 个 特征 向 量 , 如 果 v 是 特征 值 4 的 特征 向 量 ， 
容易 验证 kv (天 关 0 ) 也 是 4 的 特征 向 量 。 同 一 个 特征 值 也 可 能 拥有 多 个 线性 独立 的 特征 向 量 。 


英 伍 


令 v 和 w 是 特征 值 4 的 特征 向 量 ， 如 果 kv + lw 非 0， 则 它 也 是 4 的 特征 向 量 ， 这 很 容易 验证 。 
如 果 特征 值 4 最 多 有 k 个 线性 独立 的 特征 向 量 ， 那 么 由 它们 线性 组 合 而 得 的 非 零 向 量 也 是 4 的 特征 
向 量 。 这 kk 个 线性 独立 的 特征 向 量 张 成 的 k 维 线性 空间 称 为 4 的 特征 空间 ， 其 中 所 有 非 零 向 量 都 是 
4 的 特征 向 量 。 下 面 讲解 如 何 求 方 阵 4 的 特征 值 和 特征 向 量 ， 将 式 〈4.30 ) 变形 : 


(4—-ADv=0 (4.32 ) 


如 果 4 是 4 的 特征 值 且 v 是 4 的 特征 向 量 , 则 它们 满足 式 (4.32 )。 因 为 特征 向 量 z 不 是 零 向 量 ， 
所 以 式 (4.32 ) 有 非 0 解 ， 即 方 阵 4 一 A 的 列 线 性 相关 ， 这 要 求 4 - 41 的 行列 式 |4 一 A 等 于 0 
( 本 书 不 涉及 行列 式 , 关于 这 个 结论 可 以 查阅 任何 一 种 线性 代数 教材 ), 14 一 | = 0 是 关于 4 的 n 次 
方程 , 它 有 n 个 根 (包括 重 根 和 复数 根 ), 所 以 4 共有 n 个 特征 值 (包括 重复 特征 值 和 复数 特征 值 )。 
得 到 4 后 ， 解 式 (4.32 ) 中 的 v 可 以 求 得 4 的 特征 向 量 。 


4 的 属于 不 同 特征 值 的 特征 向 量 是 线性 独立 的 , 我 们 来 证 明 这 个 结论 。 令 v1,v?,…,v* 分 别 是 
和 矩阵 4 的 K 个 不 同 特征 值守 和 ,下 的 特征 向 量 , 若 它 们 线性 相关 , 则 其 中 某 一 个 zs 可 以 被 其 他 六 
(i 大 $s ) 线性 表 出 : 


v= Drewiv! (4.33 ) 
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因为 zs 是 特征 向 量 ， 所 以 它 不 是 零 向 量 ， 于 是 wii (ix s ) 一 定 不 全 为 0。 根据 特征 值 和 特征 
向 量 的 定义 : 
15V5s = AVS = is wi AvV' = > Wi (4.34 ) 
分 两 种 情况 讨论 ， 第 一 种 情况 ， 如 果 4 = 0， 那 么 其 他 天 和 0 (ixs)， 另 外 有 wi (is) 
不 全 为 0, 说 明 v' (is ) 是 线性 相关 的 。 这样, 在 = 0 的 情况 下 ,我 们 将 问题 规模 缩小 了 1。 
第 二 种 情况 ， 如 果 14s 关 0， 有 : 


173 = Pisswi evi (4.35 ) 
根据 式 (4.33 ) 有 : 
Dizs (wt 一 wivi) = Drew! (= 1) vi=0 (4.36 ) 


因为 是 不 同 的 特征 值 ， 所 以 2 一 1 到 0(i 到 $s), 男 外 有 wi'(i 大 s ) 不 全 为 0, 说 明 vi( i 大 s ) 是 线 
性 相关 的 。 这 样 ， 在 4 夫 0 的 情况 下 我 们 也 将 问题 规模 减 小 了 1。 


将 这 个 过 程 持 续 下 去 , 最 终 将 只 剩 下 两 个 向 量 vi: 和 vi 它们 分 属 不 同 的 特征 值 必 条 , 且 v! 和 
v7 线性 相关 。 不 妨 假设 vy' = Ko ， 则 到 也 是 天 的 特征 向 量 。 之 前 已 经 证 明 ， 一 个 特征 向 量 不 可 能 
同时 属于 两 个 不 同 的 特征 值 , 这 就 推翻 了 最 早 的 假设 , 证 明了 分 属 不 同 特征 值 的 特征 向 量 是 线性 
独立 的 。 


4.1.4 “对称 矩阵 的 谱 分 解 
如 果 方 阵 4 满 足 : 


A=AT (4.37) 


则 称 4 是 对 称 和 矩阵 。 如 果 对 称 矩 阵 4 的 元 素 都 是 实数 ， 则 称 它 为 实 对 称 矩 阵 。 实 对 称 和 矩阵 的 特征 
值 都 是 实数 ,为 证 明 这 个 结论 ,我 们 需要 暂时 离开 实数 域 .我 们 首先 回忆 一 下 复数 ,复数 4 = a + bi 
的 共 罗 〈conjugate ) 是 4 = a 一 昼 ， 也 就 是 将 虚 部 取 反 。4 与 它 的 共 罗 4 满足 : 


AM=(a+bi)(a—bi)=a*+b?*=0 (4.38 ) 


只 有 当 4 的 实 部 a 和 虚 部 bp 都 为 0 时 ， 才 有 1 和 = 0， 否 则 14 > 0。 对 于 两 个 复数 1 = a + bi 和 
“=c+di， 有 : 


AE=(ac—bd)—(bct+ad)i= A (4.39 ) 
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现在 我 们 暂时 允许 矩阵 的 元 素 、 特 征 值 以 及 特征 向 量 的 分 量 是 复数 。 把 复 和 矩阵 4 的 元 素 全 都 
取 共 斩 就 得 到 4 的 共 斩 4。 如 果 复 数 1 和 复 向 量 z 是 4 的 特征 值 及 相应 特征 向 量 ， 由 式 〈4.39 ) 容易 


得 出 ，4 和 7 是 4 的 特 生 


E 值 及 相应 特征 向 量 : 


如 果 4 是 实 对 称 和 矩阵 ， 有 4 = 4 = 47 = 47， 则 有 : 


ADTv 


= DT(1v) = TTAv = TTA = (47)T7 = (三 ) vw = 4757T7 (4.41 ) 


因为 2 关 0， 根 据 式 (4.38 ) 有 ZIrv > 0， 所 以 一 定 有 4 = 4，4 的 虚 部 只 能 是 0， 即 4 是 实数 。 
n 次 方程 |4 - 41| = 0 在 复数 域内 一 定 有 n 个 根 , 允许 重 根 。 刚 刚 证 明了 实 对 称 和 矩阵 4 的 特征 值 只 能 
是 实数 ， 所 以 它 有 mn 个 可 重复 的 实 特征 值 。 现 在 我 们 可 以 离开 复数 域 ， 从 现在 开始 只 讨论 实数 。 
有 一 个 结论 本 书 不 加 证 明 : 如 果 4 是 对 称 和 矩阵 4 的 k 重 特征 值 ( 即 方程 |4 一 41| = 0 的 k 重 根 ), 则 4 的 


特征 空间 的 维度 是 k， 


即 1 有 K 个 线性 独立 的 特征 向 量 。 


现在 我 们 介绍 对 称 和 矩阵 的 谱 分 解 (spectral decomposition ), 又 叫 特征 值 分 解 ( eigen decomposition )。 
首先 得 到 对 称 和 矩阵 4 的 nm 个 特征 值 i4, 12, …, 姑 ， 并 从 大 到 小 排列 。 为 每 个 特征 值 找到 一 个 单位 特 


征 向 量 。 如 果 某 个 特 4 


E 值 是 k 重 的 , 那么 找到 它 的 k 个 线性 独立 的 特征 向 量 , 经 过 施 密 特 正 交 化 过 


程 得 到 k 个 正 交 的 单位 向 量 。 它们 由 原来 的 个 特征 向 量 线性 组 合 而 得 , 所 以 仍然 是 该 特征 值 的 特 
征 向 量 。 这 样 一 共 可 找到 n 个 单位 特征 向 量 v1,v2,…,v"。 


对 称 矩 阵 4 的 属于 不 同 特征 值 的 特征 向 量 是 正 交 的 。 因 为 ,如 果 巨 和 居 是 4 的 两 个 不 同 特征 值 ， 
v' 和 v1 是 它们 各 自 的 特征 向 量 ， 有 : 


HI = (VTAIDT) = (VT AvV’ = (VTATVi = (AvVI) TV = MDI (4.42) 


式 (4.42 ) 多 次 利用 了 特征 值 和 特征 向 量 的 定义 ， 以 及 4 是 对 称 矩 阵 的 事实 。 根 据 式 〈4.42 ) 


有 : 


因为 开 一 好 0， 


(下 一 17)(zDIz7 = 0 (4.43 ) 


所 以 必 有 (vn) 人 vi = 0， 即 v' 和 v/ 正 交 。 在 之 前 的 构造 过 程 中 ，4 的 属于 局 


可 


一 个 特征 值 的 多 个 特征 向 量 已 经 过 施 密 特 正 交 化 ， 它 们 彼此 正 交 ， 刚 刚 又 证 明了 4 的 不 同 特征 值 


的 特征 向 量 是 正 交 的 ， 


所 以 单位 特征 向 量 zLz2, …,z 两 两 正 交 。 因 为 它们 两 两 正 交 ， 所 以 它们 


线性 独立 。 用 它们 构造 矩阵 T 斑 : 


VT= (yt .pn) (4.44 ) 
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因为 z45 72 …,2? 是 两 两 正 交 的 单位 向 量 ， 所 以 了 是 正 交 矩阵。 构造 对 角 移 阵 : 


11 ... 0 
0 .… A 


4 的 n 个 对 角 线 元 素 是 4 的 从 大 到 小 排列 的 特征 值 ， 其 余 元 素 是 0， 有 : 


Al ... 0 
VIA= (zl … 人 -am Mw") = AVT (4.46 ) 
0 .… A 


因为 VVT7 = I， 所 以 有 : 


A=ViAV (4.47 ) 


这 就 是 对 称 和 矩阵 4 的 特征 值 分 解 ， 又 称 谱 分 解 。 
4.1.5 奇异 值 分 解 


今 X 是 m xm 和 矩阵 ， 则 XTX 是 mn x7 的 对 称 和 矩阵 。XTX 有 7 个 (可 重 ) 非 负 特 征 值 ， 将 它们 从 大 
到 小 排列 1 > 和 2 > … > 入。 如 果 XTX 有 7 < n 个 特征 值 大 于 0， 将 它们 记 为 和 ,42 ,和 ， 它 们 
的 平方 根 V 太 ,V,… ,VNX 称 为 X 的 奇异 值 。XTX 可 以 谱 分 解 为 VTAV。VT 的 列 是 RR" 的 一 组 标准 正 


交 基 。 构 造 r 个 向 量 ul,w2,… ,wr : 


i — Xvi 


fF 
其 中 ，w' (i = 1,…,r ) 是 两 两 正 交 的 标准 向 量 ， 因 为 : 


i=1,.…,r (4.48 ) 


(ui, ui) = (4.49 ) 


viTXT Xb) | ZiTVT4Yv/ Sy eiT4eri | 站 i =]J 
VA VA Va (0, izj 


构造 m xy 和 矩 阵 = (wl 一.…， rm) 以 及 r xm 和 矩阵: 
VA … 0 0 .… 0 
让 (4.50 ) 


0 .1 VF 0 … 0 


因为 XIX 只 有 7 个 特征 值 非 0, 对 于 后 n 一 ?个 0 特征 值 的 特征 向 量 , 有 wiTXTIXvi = YiT(0vi) = 
0 (i>r)。Xvi 与 自身 的 内 积 为 0， 所 以 Xvi 是 零 向 量 ， 于是: 


XVT= XV … Vn) = Xp 1 Kv 0 1 0)=Ur (4.51) 
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因为 VT 是 正 交 和 矩阵， 再 根据 式 (4.51 )， 有 X = UTV， 这 就 是 X 的 奇异 值 分 解 ( singular value 
decomposition，SVD )。 人 全体 由 X 的 列 线性 组 合 而 成 的 向 量 构 成 一 个 线性 空间 ， 称 为 X 的 列 空间 。 
可 以 证 明 X 的 列 空间 中 的 所 有 向 量 都 可 由 wi(i = 41…,r 浅 性 表 出 ,因为 对 于 任何 一 个 n 维 向 量 pB， 
有 : 


XB = UrVvB (4.52 ) 


0 的 r 个 列 w (i = 1,…,r) 是 两 两 正 交 (于 是 线性 独立 ) 的 标准 向 量 ， 能 线性 表 出 X 的 列 空 
间 的 所 有 向 量 ， 所 以 它们 是 X 的 列 空 间 的 一 组 标准 正 交 基 。 


用 某 个 方 阵 4 (不 一 定 对 称 ) 构造 多 元 函数 q(x) : 
q(x) = xTAx (4.53 ) 
这 种 形式 的 函数 称 作 二 次 型 (quadratic form )， 例 如 : 


1 2 
3 4 


二 次 型 只 包含 二 次 项 ， 不 包含 一 次 项 、 常 数 项 (0 次 ) 以 及 更 高 次 项 。 这 种 情况 称 二 次 型 是 
“ 齐 次 ”的 。 从 式 (4.54 ) 可 以 看 出 ，q(x) 也 可 以 写成 : 


q(xX) = (X1 x2) ( ) (2 = X12 十 5X1X2 十 4X22 (4.54 ) 


1 3\ /x 
q(xX) = (X1 Xz2) e | CG = X12 + Sxix2 + 4x2° (4.55) 
2 


将 “交叉 ”项 〈 二 元 情况 下 就 是 xxz ) 的 系数 对 半分 ， 则 任何 一 个 二 次 型 都 能 写成 关于 对 称 
和 矩阵 的 二 次 型 。 一 个 对 称 和 矩阵 4， 如 果 对 于 任意 向 量 x 都 有 : 


XI4x > 0 (4.56) 


则 称 4 是 半 正 定 的 ( positive semidefinite )。 如 果 对 任意 x 到 0， 不 等 号 是 严格 的 ( > )， 则 称 4 是 
正定 的 ( positive definite )。 相 应 地 还 有 半 负 定 (negative semidefinite ) 和 负 定 ( negative definite )。 
半 正 定 矩 阵 的 所 有 特征 值 都 不 为 负 ， 因 为 假如 4 有 一 个 负 特 征 值 < 0，4 可 以 分 解 为 : 


A=ViAV (4.57) 


因为 V 和 V 是 正 交 和 矩阵 ， 所 以 V 的 列 是 R"* 的 一 组 标准 正 交 基 ， 存 在 x 使 ei = Vx， 那 么 有 : 


XI4x = XIVI4Vx = (Vx)'AVx = (ei)'hAe: =X<0 (4.58 ) 
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这 与 4 半 正 定 矛 盾 ， 所 以 半 正 定 和 矩阵 的 所 有 特征 值 都 非 负 。 同 样 可 以 证 明正 定 和 矩阵 的 所 有 特 
征 值 都 为 正 , 半 负 定 矩 阵 的 所 有 特征 值 都 非 正 ， 以 及 负 定 矩阵 的 所 有 特征 值 都 为 负 。 半 正定 矩阵 
可 以 分 解 成 两 个 矩阵 的 乘积 : 


Al i) 0 Vi ... 0 VA ... 0 
A=viav |( 多 | 汪 儿 2 ) 
0 … 各 0 ... Va 0 .. Va 


= TV (全 A2V = (aiv) AzV (4.59 ) 


现在 考虑 半 正 定 矩 阵 的 二 次 型 的 最 大 值 问 题 。 如 果 限 制 z 是 单位 向 量 ， 则 半 正 定 矩 阵 4 的 二 
型 xTAx 的 最 大 值 是 4 的 最 大 特征 值 2t ， 达 到 该 最 大 值 的 x 是 机 的 某 个 单位 特征 向 量 : 


maxlzl=1XI4X = 入 (4.60 ) 


为 证 明 式 (4.60 ) 的 结论 ， 首 先 考察 对 于 正 交 和 矩阵 VT 和 任意 单位 向 量 x，VTxX 的 模 是 多 少 : 


ITx|l2 = (VIx) Vix = XTVYYTX = XITX = ||xll? (4.61) 


从 式 (4.61 ) 看 出 ， 用 正 交 和 矩阵 乘 任意 向 量 不 改变 该 向 量 的 长 度 。 从 几何 角度 的 理解 是 : 正 
交 和 矩阵 的 行 是 标准 正 交 基 , 用 正 交 矩阵 乘 一 个 向 量 是 将 该 向 量 投影 在 新 的 标准 坐标 系 中 , 这 相当 
于 旋转 该 向 量 ， 不 改变 其 长 度 。 


A 和 VT 是 将 半 正 定 和 矩阵 4 谱 分 解 得 到 的 对 角 阵 和 正 交 阵 。 对 于 任意 单位 向 量 x, 它 可 以 被 VI 的 
列 线性 表 出 x = VTx’， 于 是 x' = VX: 


XI4X = x VIAVxX = (x)T Ax’ = De NX x)? (4.62 ) 
根据 之 前 的 论证 ，x' 的 模 与 x 的 模 相同 ， 都 为 1。 在 281(0c)2 = 1 的 限制 下 ， 当 x = e! 时 ， 
式 (4.62 ) 达到 最 大 值 人 L。 如 果 Vx = e!， 则 x = VTe! = v1。 所 以 当 x 是 4 的 最 大 特征 值 4! 的 单位 
寺 征 向 量 v! 时 ，x TAX 取得 最 大 值 1。 


寻找 模 为 1 的 限制 下 第 二 大 的 xTAXx 值 ， 是 没有 意义 的 。 因 为 二 次 型 是 连续 的 ， 当 x 无 限 接近 
V1 时 ，xTAX 可 以 无 限 接近 姑 。 所 以 我 们 加 一 个 限制 条 件 : x 模 为 1 且 与 v1 正 交 。 寻 找 在 这 个 限制 
下 ，xTAxX 的 最 大 值 。 这 时 有 结论 : 


max|xl|=1,x1v! XIT4xX 二 pb (4.63 ) 


在 x 模 为 1 且 正 交 于 v1 的 限制 下 , x7Ax 能 达到 的 最 大 值 是 4 的 第 二 大 特征 值 号 。 当 x 是 尼 的 单 
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位 特征 向 量 2? 时 ，x74x 达 到 此 值 。 我 们 证 明 这 个 结论 : 令 x = Vx， 于 是 x 的 第 一 个 元 素 是 v1 与 
x 的 内 积 。x 正 交 于 v1 的 限制 使 x' 的 第 一 个 分 量 为 0。 根 据 式 〈4.62 )， 和 欲 使 zx74x 达 到 最 大 ， 就 必 
须 把 所 有 “份额 ”都 分 配给 x' 的 第 2 个 分 量 ， 即 x' = ez ， 这 时 xT4x 达 到 限制 下 的 最 大 值 ?2， 有 


X=Vie?=v, 


我 们 总 结 一 下 : 半 正 定 矩 阵 的 最 大 特征 值 的 单位 特征 向 量 , 在 模 为 1 的 限制 下 使 二 次 型 xTAx 
达到 最 大 值 , 为 最 大 特征 值 ; 第 二 大 特征 值 的 单位 特征 向 量 ,在 模 为 1 且 正 交 于 最 大 特征 值 的 单 
位 特征 向 量 的 限制 下 ， 使 二 次 型 xTAx 达 到 最 大 值 ， 为 第 二 大 特征 值 ， 以 此 类 推 。 


4.2 多 元 函数 的 局 部 二 阶 特性 

函数 的 局 部 一 阶 特性 由 梯度 描述 , 梯度 决定 法 向 量 , 法 向 量 决定 切 平面 。 切 平面 所 能 包含 的 
信息 无 非 是 向 何方 倾斜 ,倾斜 程度 如 何 ， 这 些 信息 就 是 函数 向 各 方向 的 方向 导数 。 如 果 切 平面 不 
倾斜 ， 即 梯度 为 零 向 量 ， 这 样 的 点 就 是 驻 点 ， 驻 点 向 各 个 方向 的 方向 导数 都 为 0。 但 仅 根 据 一 阶 
言 息 无 法 判断 驻 点 的 类 型 , 若 要 进一步 刻画 函数 的 局 部 形态 ， 就 需要 用 二 次 函数 对 原 函 数 进行 局 
部 近似 。 函 数 的 局 部 二 次 近似 信息 包含 在 赫 森 矩阵 之 中 。 
4.2.1 蒜 森 矩阵 

n 元 函数 (Xx) 在 x 点 的 赫 森 ( Hessian ) 矩阵 是 nz x n 和 矩阵 H(X): 


arm 0f(%) 
OX10X1 OXnOX1 
H(x) = : 因 | (4.64) 
Of() .| ar 
OX10Xn OXmnOXm 


站 汪 表 示 将 29 先 对 基 求 偏 导 ， 再 对 为 求 偏 导 ， 即 /9 在 x 的 二 阶 偏 导 。 有 一 个 结论 本 书 不 
给 出 证 明 ; 如 果 熙 癌 和 这 吕 -在 x 点 都 是 连续 的 ， 则 它们 相等 。 也 就 是 说 ， 如 果 f(x) 有 连续 的 二 
阶 偏 导数 ， 则 求 偏 导 的 次 序 不 影响 结果 。 本 书 假设 这 种 连续 性 都 是 满足 的 ， 所 以 也 (x) 是 对 称 答 
阵 。 赫 森 和 矩阵 (x) 的 第 一 行 的 n 个 元 素 分 别 是 学 中 对 x1,xz,…, x 的 偏 导 ， 即 HCx) 的 第 一 行 是 汪 中 
的 梯度 的 转 置 。 


4.2.2 ”二 阶 泰勒 展开 

函数 fx) 在 x 沿 d 的 方向 导数 是 Vf(x)Td。 当 把 自 变 量 限 制 在 一 条 直线 上 时 ,可 以 把 f(x) 看 作 
一 元 函数 ， 方 向 导数 就 是 这 个 一 元 函数 的 导数 。 还 可 以 定义 f(x) 沿 d 的 二 阶 导数 ， 即 方向 导数 的 
导数 。 将 Vf(x)Tqd 视 作 x 的 函数 ， 求 它 沿 d 的 方向 导数 。 首 先 求 Vf(x)Tqd 的 梯度 : 


af tw) 
I 0 1dj 5] 
avfcord _ * wm = hd (4.65 ) 


Oxi Axi i=1 了 


其 中 ，h, i 是 赫 森 矩阵 HH(x) 的 第 i 列 。 式 (4.65 ) 说 明 Vf(x)Tqd 对 xi 的 偏 导数 是 H(x) 的 第 i 列 与 dq 的 
内 积 ， 于 是 Vf (x)Td 在 x 的 梯度 是 : 


ovf(x)Td 
OX1 h,1 da 
v(Vf(x)Td) = : 三 = H(x)'™d (4.66 ) 
ovf(x)T™d h., nd 
Oxn ， 


所 以 方向 导数 VF(CoOTQ 沿 qd 的 方向 导数 ， 即 Fo) 沿 d 的 二 阶 导数 是 : 
(YCvFoaord) d= (ECOoOrd)rd = dTH)d (4.67 ) 


式 (4.67 ) 表明 ，f (Xx) 在 x 沿 d 的 二 阶 导数 是 二 次 型 qTH(X)d。 多 元 函数 在 某 点 沿 各 个 方向 的 
二 阶 导 数 全 蕴含 在 赫 森 矩阵 之 中 。 回 忆 一 下 一 元 函数 的 二 阶 泰 勒 展开 


Fe+ 站 = f+ fF OR + OT -0% + RA) (4.68 ) 


入 (和 门 是 大 的 高 阶 无 穷 小 ， 即 : 


lim， ,0 了 =0 (4.69 ) 
现在 将 二 阶 泰勒 展开 扩展 到 多 元 函数 ; 
Fe+ 问 = Fo + VOTh+ On Tr + RN) (4.70 ) 


Vf(X) 是 f (x) 在 x 的 梯度 ，H(x) 是 f(x) 在 x 的 赫 森 矩阵，R(Ch) 是 ||hl|? 的 高 阶 无 穷 小 : 


; R(h) 
lim| nyo PE =0 (4.71 ) 


我 们 证 明 式 (4.70 )， 构 造 一 元 函数 g(h) = f(x +h- 吉 )， 吉 是 单位 向 量 。 显然 f(x + 及 = 
g(IhIDsg(h) 在 0 点 的 导数 是 f(x) 在 x 沿 训 的 方向 导数 ,g(h) 在 0 点 的 二 阶 导数 是 fx) 在 x 沿 襄 的 


| 


二 阶 导数 。 把 g(n) 在 0 点 二 阶 泰勒 展开 : 


f(x+h)= g(llhl) = g9(0) 二 9 (Ohl + ol 十 站 (| 天 四 


= T+ RAD (4.72) 
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不 论语 朝向 什么 方向 , 当 上 ll 趋 近 于 0 时, 式 (4.72 ) 中 的 余 项 入 Cj) 也 趋 近 于 0 , 而 且 比 | 上 ml 


消失 得 更 快 ， 这 就 证 明了 式 〈4.70 )。 对 式 (4.70 ) 做 一 个 变量 替换 ， 令 x' = x 十 hh， 并 省 上 略 高 阶 
无 穷 小 的 余 项 ， 可 得 到 原 函 数 在 x 附近 的 近似 二 次 函数 : 


f(x) = FOO + VIO x 2) + CO OE (4.73) 


图 4-1 展示 了 几 个 典型 的 二 次 函数 图 像 。 后 文 我 们 将 会 看 到 :二 次 函数 的 赫 森 矩阵 是 常 矩 阵 ， 
它 决定 二 次 函数 的 形态 。 


图 4-1 典型 的 二 次 函数 图 像 
式 (4.73 ) 中 的 近似 二 次 函数 的 图 像 过 (x, f(x)) 点 , 它 是 f(x) 在 x 附近 的 二 次 近似 。 二 次 近似 
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函数 的 0 次 和 一 次 项 构成 仿 射 函数 Fo) + VA(X) (x' 一 Xx)， 这 是 前 文 讨论 过 的 函数 在 x 附近 的 线 
性 近似 。 二 次 近似 是 对 原 函 数 的 更 精确 的 近似 ， 如 图 4-2 所 示 。 


)+ | 


pe aipay 


图 4-2 ”函数 的 局 部 二 次 近似 


4.2.3 ”了 驻 点 的 类 型 
驻 点 到 底 是 局 部 极 小 点 、 局 部 极 大 点 还 是 鞍点 ,这 取决 于 函数 的 局 部 二 阶 特 性 ,假设 x* 是 f(x) 
的 驻 点 ，H(X’) 是 f (x) 在 x* 的 赫 森 和 矩阵， 因为 Vf (x*) 是 零 向 量 ，f (x) 在 x* 的 二 阶 泰勒 展开 是 : 


Fe + hh) =f) + + RR) (4.74) 


d = 汪 -， 是 与 同方 向 的 单位 向 量 。 假 如 HH(x*) 是 正定 的 ， 有 dTH(x*)d > 0。 因 为 R(h) 是 


EA 
nal 
A 上 的 高 阶 无 穷 小 ， 所 以 当 ||hl| 趋 近 于 0 时 ， 式 (4.74 ) 右边 后 两 项 有 : 
和 x* 
limjnso ee = ord >0 (4.75) 


ee 
Ei 
/ 世 、， 


当 x + h 足 够 靠近 x 时 ， 必 有 f(x* 十 站 > Fo ， 所 以 姑 是 局 部 极 小 点 。 注 意 ， 赫 森 矩 阵 必 须 
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正定 。 如 果 赫 森 矩 阵 仅 仅 是 半 正 定 , 那么 式 (4.75 ) 的 极限 可 能 等 于 0, 后 两 项 可 以 从 负 侧 接近 0， 
这 就 不 能 保证 f(x* + h) 终 会 大 于 f(x*)。 类 似 地 ， 如 果 HH(x") 负 定 ， 则 x* 是 局 部 极 大 点 。 

如 果 特 征 值 有 正 也 有 负 ， 则 赫 森 矩阵 是 不 定 的 。 如 果 瓦 (xz) 不 定 ， 则 沿 正 特征 值 的 特征 向 量 
的 二 阶 导数 为 正 ， 函 数 向 上 翘 , 驻 点 是 最 低 点 ; 沿 负 特 征 值 的 特征 向 量 的 二 阶 导 数 为 负 ， 函 数 向 
下 弯 ， 驻 点 是 最 高 点 。 这 种 情况 下 ， 在 任意 小 邻 域内 都 有 函数 值 大 于 f(x’*) 的 点 ， 也 有 函数 值 小 
于 fx”) 的 点 ， 所 以 x* 是 鞍点 。 驻 点 类 型 与 赫 森 矩阵 的 特征 值 的 关系 如 图 4-3 所 示 。 


局 部 极 大 点 (1.6, 1.6)T， 特 征 值 : A1= 一 1.0 XA?= 一 1.0 


局 部 极 小 点 (一 1.6, 一 1.6)"， 特 征 值 : A1=1.0 A?=1.0 
区 = 


图 4-3， 驻 点 类 型 与 赫 森 矩阵 的 特征 值 的 关系 
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我 们 总 结 一 下 驻 点 类 型 与 赫 森 矩阵 的 关系 。 


口 驻 点 六 的 赫 森 矩阵 正定 ，x* 是 局 部 极 小 点 ; 

口 驻 点 x* 的 赫 森 和 矩阵 负 定 ，x* 是 局 部 极 大 点 ; 

口 驻 点 x* 的 赫 森 矩阵 不 定 ，x* 是 鞍点 ; 

口 驻 点 x* 的 赫 森 矩阵 半 正 定 或 半 负 定 ( 但 非 正 定 或 负 定 ) ，x* 的 性 质 无 法 确定 。 


函数 的 局 部 二 阶 特性 比 一 阶 特性 提供 了 更 多 的 信息 , 但 它 仍 不 是 函数 的 精确 描述 。 如 果 赫 森 
和 矩阵 是 奇异 的 , 则 它 有 0 特征 值 ， 这 时 仍然 没有 足够 的 信息 判断 驻 点 的 类 型 。 如 果 不 考虑 奇异 的 
情况 ,那么 只 有 当 赫 森 矩 阵 正定 时 ， 驻 点 是 局 部 极 小 点 。 在 没有 任何 先 验 知识 时 ， 可 以 假设 特征 
值 大 于 0 的 概率 是 0.5 且 彼 此 独立 ， 如 果 模 型 有 ?个 参数 ， 则 赫 森 矩阵 的 特征 值 全 部 大 于 0 的 概 
率 是 2-*， 这 是 一 个 极 小 的 概率 ， 所 以 在 神经 网 络 这 种 参数 很 多 的 模型 中 ， 局 部 极 小 点 应 该 是 极 
罕见 的 。 


梯度 反方 向 一 Vf 虽然 是 下 降 最 快 的 方向 , 但 如 果 沿 -Vf 的 二 阶 导 很 大 ， 则 方向 导数 增 大 得 很 
快 。 这 种 情况 下 ,如果 步 长 较 大 则 可 能 导致 函数 值 不 降 反 升 。 如 果 在 选择 前 进 方向 时 不 仅 参 考 梯 
度 Vf(x)， 也 参考 赫 森 矩阵 H(x)， 则 算法 将 能 做 出 更 优 的 选择 。 后 文 将 要 介绍 的 牛顿 法 和 共 罗 f 方 
向 法 就 是 如 此 。 


4.2.4” 赫 森 和 矩阵 的 条 件数 


令 向 量 x = (xj, xX2)'，9q(X) 是 二 元 二 次 函数 : 


q(x) = a + bix1 + baxz 十 2 十 2 成 十 2 =a+bixt+ XTHX (4.76 ) 


h h S 
其 中 ,五 = (Dupo7， 百 = (证 天 ?让 2 = hz = 和。q() 的 梯度 是 : 
2,1 2,2 
9q 
四 Bx1 四 bi 十 hiixi+ | 四 
Vq(x) = 加 = 人 a 交 直 二 b+Hx (4.77 ) 
OX2 
q (x) 的 赫 森 矩阵 是 : 
oq oq 
| Oxi0x1 Ox20x1 | __ hi | 
5 人 (全 » ja 忆 (4.78 ) 
OX10X2 OX20X2 


将 q(x + 有 在 x 二 阶 泰勒 展开 : 
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hTHh (x+h)TH(xX+h) 
a (4.79 ) 


q(x+h)=a) +(b+HXA ht =a+b (x+h)+ 


可 见 q(x) 的 二 阶 泰勒 展开 就 是 它 本 身 。 此 结论 不 限于 二 元 ，n 元 二 次 函数 的 二 阶 泰勒 展开 就 
是 它 本 身 。 因 为 二 次 函数 的 赫 森 矩阵 是 常 矩 阵 , 它 的 二 阶 特性 是 处 处 相同 的 。 如 果 二 次 函数 qg(x) 的 
赫 森 矩阵 玉 是 正定 的 ， 则 它 的 所 有 特征 值 为 正 ， 容 易 验 证 互 可 逆 ， 逆 矩阵 是 : 


二 … 0 
1 
百 -1=TYI4-IY = VT | Fo ) (4.80) 
0. a 4 
An 


站 是 以 H 的 正 交 单位 特征 向 量 为 列 构成 的 矩阵 。 因 为 有 正定， 所 以 q(x) 的 唯一 驻 点 
X* 二 一 H71b 是 一 个 局 部 极 小 点 。q (Xx) 在 x* 沿 任意 方向 的 方向 导数 为 0, 二 阶 方向 导数 是 d?Hd > 0， 
所 以 q(x) 沿 任意 方向 的 方向 导数 持续 增 大 。q(x) 沿 自 变量 空间 中 任意 直线 的 图 像 都 是 先 下 降 , 在 
入 降 到 最 低 然 后 上 升 ， 是 开口 向 上 的 抛物 线 。 沿 二 阶 导 较 大 的 方向 抛物 线 较 窗 ; 沿 二 阶 导 较 小 的 
方向 抛物 线 较 宽 。 


根据 之 前 对 二 次 型 最 大 值 的 讨论 ， 使 二 阶 导 dTHd 最 大 的 单位 向 量 是 H 的 最 大 特征 值 宙 的 单 
位 特征 向 量 v!， 在 此 方向 上 q(x) 具 有 最 大 的 二 阶 导数 米 。 垂 直 于 v1 是 使 二 阶 导 dTHd 最 大 的 单位 
向 量 是 瓦 的 第 二 大 特征 值 玫 的 单位 特征 向 量 22 ， 在 此 方向 上 q(o) 具 有 第 二 大 的 二 阶 导数 短 。 


H 的 最 大 特征 值 与 最 小 特征 值 之 比 加 让 称 为 H 的 条 件数 ( condition number )。 条 件数 越 大 ， 则 


函数 图 像 的 宽 与 罕 相 差 越 悬殊 , 图 像 越 狭长 。 反之 若 味 到 = 1, 则 函数 图 像 朝 各 个 方向 宽窄 相同 ， 
呈 圆 硫 状 ， 如 图 4-4 所 示 。 


特征 值 : A1 = 2.00 A? = 2.00 ,条 件数 : 和 = 1.00 特征 值 : A1 = 2.00 A? = 4.00 , 条 件数 :2 2.00 


Am 


图 4-4 条 件数 与 二 次 函数 图 像 的 狭长 程度 


Amm 


特征 值 , A1 = 2.00 A? = 8.00 ,条 件数 : 告 * = 4.00 特征 值 : A1 = 2.00 A? = 16.00 ,条 件数 :ar = 8.00 


图 4-4 ( 续 ) 


如 果 条 件数 加 很 大 ， 则 称 该 二 次 函数 是 病态 的 ( 加-conditioned )。 病 态 对 梯度 下 降 法 不 利 ， 
会 引起 震荡 甚至 不 收敛。 如 果 玉 非常 “健康 "， 它 的 条 件数 达到 最 小 值 1 ,那么 情况 是 怎么 样 的 ? 
如 果 玉 的 条 件数 是 1， 即 hmax = mm， 则 瓦 的 所 有 特征 值 都 相等 ， 令 它们 都 等 于 1， 有 ; 


Lk 
H-1= VA-V = rr … Sir (4.81 ) 
0 于 
那么 驻 点 好 是 : 
x =-H b=—ib (4.82 ) 
从 任意 点 x 指向 驻 点 x* 的 “箭头 ”是 向 量 : 
x —xX=—ihb—x (4.83 ) 
再 看 看 x 点 的 梯度 反方 向 : 
—Vq(x) = —(b + Hx) = —(b+ AVIVx) = —(b + Ax) = A(x* — XxX) (4.84 ) 


式 (4.84 ) 表 明 ,如 果 二 次 函数 的 赫 森 矩阵 的 条 件数 为 1 ,那么 任 一 点 x 的 负 梯 度 指 向 驻 点 好 。 每 
一 步 梯度 下 降 都 是 朝 着 正确 的 方向 前 进 。 当 然 如 果 步 长 过 大 有 可 能 一 步 跨 过 x* 而 发 生 震 荡 , 甚至 
有 可 能 不 收敛 。 现 实 中 的 损失 函数 不 是 二 次 函数 , 但 是 在 局 部 可 以 用 二 次 函数 近似 。 本 节 分 析 的 
二 次 函数 的 特性 ， 可 以 近似 地 表示 函数 的 局 部 特性 。 
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4.3 基于 二 阶 特性 的 优化 


如 果 参 考 函 数 的 局 部 二 阶 信 息 , 则 优化 算法 会 更 健壮 、 更 高 效 。 但 是 高 维 情况 下 求 赫 森 矩阵 
的 计算 量 是 巨大 的 , 这 妨碍 了 二 阶 优化 算法 在 神经 网 络 或 深度 学 习 中 的 应 用 。 本 节 介 绍 两 个 基于 
赫 森 矩阵 的 优化 算法 一 一 牛顿 法 和 共 罗 f 方 向 法 , 并 探讨 它们 的 几何 意义 。 从 修正 反 梯 度 方向 的 角 
度 看 待 牛 顿 法 ， 可 为 上 一 章 介绍 的 梯度 下 降 法 变 体 提供 一 些 洞 见 。 


4.3.1 牛顿 法 
牛顿 法 ( Newton method ) 在 某 点 对 函数 进行 二 阶 泰勒 展开 ， 求 函数 的 局 部 近似 二 次 函数 的 


驻 点 ， 以 该 驻 点 作为 迭代 的 下 一 个 点 。 根 据 式 〈4.70 )，f(x) 在 x 附近 的 局 部 二 次 近似 函数 是 : 
f+ f+ VTh+ (4.85) 
二 次 近似 的 梯度 是 : 
Vf(x) + HX)R (4.86 ) 


如 果 HH(x) 的 特征 值 都 非 0 ( 可逆 ), 可 用 式 (4.80 ) 构造 它 的 道 矩 阵 ， 再 令 梯度 式 (4.86 ) 为 
零 向 量 ， 求 得 驻 点 是 : 


h* = —H(x)-1Vf (x) (4.87) 


所 以 ， 牛顿 法 对 自 变 量 x 的 更 新 就 是 Ax = h* = 一 H(x)-1Vf(x)。 牛 顿 法 的 伪 代 码 如 下 : 


X90 二 随机 初始 化 

to0 

while |lVf(x)||= e: 
Xttle xt— H(x!)-1Vf (x!) 
toet+i+l 

return x! 


与 梯度 下 降 法 一 样 ，e > 0 是 一 个 预 设 的 阔 值 ， 当 lyYFGol < se 时 ,认为 Vf (x) 已 经 足够 接近 
零 向 量 , 算法 停止 。 也 可 以 采用 循环 次 数 达到 预 设 的 最 大 值 ， 或 者 函数 值 的 下 降幅 度 小 于 阔 值 等 
其 他 停止 标准 。 牛 顿 法 迭代 过 程 的 示意 图 如 图 4-5 所 示 。 


第 2 步 迭 代 


图 4-5 牛顿 法 迭代 过 程 示意 图 


我 们 可 以 从 对 反 梯度 方向 进行 修正 的 角度 看 牛顿 法 。 原 始 梯 度 下 降 法 沿 反 梯度 方向 一 Vf(X) 
更 新 自 变 量 ， 而 牛顿 法 将 -Vf(x) 乘 上 赫 森 算 阵 的 逆 和 矩阵 H(x)-1。 假 设 H(X) 是 正定 的 ， 根 据 对 称 
和 矩阵 的 谱 分 解 ，H(X) 下 可 以 分 解 成 : 


二 … 0 
H(x)-! = VT | ee 用 (4.88 ) 
各 


三 是 由 三 ( 罗 的 正 交 单 位 特征 向 量 构成 的 正 交 矩阵 ,村 22 ,和 姑 是 从 大 到 小 排列 的 瓦 Cx) 的 m 个 
正 特征 值 (可 重 )， 于 是 牛顿 法 的 更 新 式 可 以 写成 : 


直 … 0 
Ax = —H(x)-1Vf(x) = VT | 和 jw (4.89 ) 
OQ 


IT 
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站 的 列 ( 即 V 的 行 ) 是 R" 的 标准 正 交 基 , 也 就 是 一 个 新 的 坐标 系 。 该 坐标 系 的 第 一 个 轴 沿 着 
f(%) 二 阶 导 数 最 大 的 方向 ,第 二 个 轴 沿 着 垂直 于 第 一 个 轴 且 f(x) 二 阶 导数 次 大 的 方向 ,以 此 类 推 。 
V( 一 Vf (Xx) ) 的 第 一 分 量 是 反 梯度 向 最 大 二 阶 导 数 方向 的 投影 , 第 二 分 量 是 向 次 大 二 阶 导数 方向 的 
投影 ， 以 此 类 推 。 


用 对 角 阵 乘 Y(-VFGCoO)， 相 当 于 用 权重 3 惩罚 各 特征 方向 上 -VCo) 的 分 量 。 特 征 值 在 越 大 ， 
其 特征 方向 上 FoO 的 二 阶 导数 越 大 ， 对 -VFGo 在 该 方向 上 的 分 量 的 惩罚 越 严 历 。 病 态 条 件 下 梯 
度 下 降 法 发 生 震 荡 的 原因 就 是 二 阶 导 数 较 大 的 方向 主 字 了 反 梯 度 方向 , 牛顿 法 通过 对 二 阶 导 数 较 
大 的 方向 进行 适当 惩罚 缓解 了 这 种 现象 ， 如 图 4-6 所 示 。 


二 次 函数 的 二 阶 泰 勒 展开 就 是 它 自身 ， 牛 顿 法 能 够 一 步 定 位 到 二 次 函数 的 全 局 最 小 点 。 图 4-6 
中 的 例子 都 是 二 次 函数 , 可 以 看 到 图 中 修正 后 的 向 量 都 直 指 全 局 最 小 点 。 第 一 幅 图 中 的 二 次 函数 
的 赫 森 矩阵 的 条 件数 为 1， 反 梯度 本 身 就 指向 正确 的 方向 。 这 时 牛顿 法 缩放 了 反 梯 度 向 量 的 长 度 ， 
使 得 修正 后 的 向 量 直 达 全 局 最 小 点 。 注 意 , 我 们 一 直 要求 二 次 函数 的 赫 森 矩阵 正定 。 因 为 如 果 替 
森 矩 阵 负 定 或 不 定 ， 则 二 次 函数 没有 全 局 最 小 点 。 


损失 函数 一 般 不 是 二 次 函数 。 在 非 二 次 函数 上 应 用 牛顿 法 , 是 在 函数 的 局 部 二 次 近似 上 执行 
牛顿 法 。 以 当前 点 的 局 部 二 次 近似 的 驻 点 作为 下 一 个 点 进行 迭代 , 希望 找到 全 局 最 小 点 。 和 梯度 
下 降 法 一 样 ,在 非 二 次 函数 上 牛顿 法 不 能 保证 找到 全 局 最 小 点 , 但 从 上 面 的 讨论 可 以 看 出 ,牛顿 
法 修正 了 反 梯 度 方向 ， 在 像 “ 峡 谷 ” 这 样 的 病态 地 形 下 能 取得 比 梯度 下 降 法 更 好 的 效果 。 


-次 函数 : f(x) = 0.8x1 + 0.8x? + 0.0X1X2 -次 函数 : f(x) = 0.8xl + 1.6x? + 0.2X1X2 
区 PP 个 - < 局 -一 es | 
10 Ee 10 | 
pp > 时 
5 5 
| Few WY AX=1.60 vi me Aa 
= vl A!1=1.60 | vi A1 A1.58 
-rrv 
修正 后 的 方向 和 | 修正 后 的 方向 一 
-10 -5 区 10 10 -5 5 10 
—vf —vfTiv2 
-5 
—vf 
I 
I 10 A | 本 ~ py 


图 4-6 牛顿 法 对 二 阶 导数 较 大 的 方向 进行 惩罚 


二 次 函数 : f(x) = 0.8x1 + 2.4x? 十 0.3X1X2 二 次 函数 : f(x) = 0.8x1 十 3.0X2 十 0.1X1X2 


在 非 二 次 函数 上 应 用 牛顿 法 有 一 个 问题 ， 如 果 f (Xx) 在 x 的 赫 森 窍 阵 非 正定 怎么 办 ? 例如 ， 如 
果 f(x) 在 x 的 赫 森 矩阵 是 负 定 的 ， 那么 f(x) 在 x 附近 的 二 次 近似 是 一 个 倒 扣 的 “ 碗 ”， 牛 顿 法 的 更 
新 公式 定位 到 “ 倒 扣 碗 ”的 驻 点 ,， 那 是 近似 二 次 函数 的 全 局 最 大 点 , 原 函 数 在 这 一 点 很 有 可 能 
更 高 的 函数 值 。 从 修正 反 梯 度 的 角度 看 , 如 果 赫 森 矩 阵 的 特征 值 都 是 负 值 , 那么 -HGX)-1Vf (x) 将 
一 Vf (x) 的 每 一 个 投影 分 量 都 取 反 了 ， 修 正 后 的 方向 指向 的 是 函数 值 上 升 的 方向 ， 如 图 4-7 所 示 。 
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图 4-7 赫 森 矩阵 负 定 导致 牛顿 法 收敛 到 局 部 极 大 点 
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牛顿 法 有 可 能 既 到 达 不 了 局 部 极 小 点 , 也 到 达 不 了 局 部 极 大 点 ,因为 它 的 每 一 步 是 找 局 部 二 
次 近似 的 驻 点 ， 驻 点 还 有 一 种 可 能 | 蒂 点 。 牛 顿 法 有 可 能 收敛 到 鞍点 ， 如 图 4-8 所 示 。 
第 1 步 先 代 2 步 选 代 


1 


4 
| 


图 4-8 ”牛顿 法 收敛 到 鞍点 


这 一 切 都 源 于 损失 函数 在 各 个 点 的 赫 森 矩阵 不 一 定 正定 。 解 决 办 法 是 对 赫 森 矩阵 进行 修正 ， 
使 它 正 定 。 例 如 Levenberg-Marquardt 修正 ， 以 下 简称 L-M 修正 : 


FH(x) = HC(x) + ul (4.90 ) 


如 果 天 (= 1…,n) 是 H(x) 的 特征 值 ，vi (i = 1…,n) 是 相应 的 单位 正 交 特 征 向 量 ， 那么 
无 +A CE= 二 和 …)) 是 了 (x) 的 特征 值 ，vi (i = 1,…,n) 仍 是 卫 (x) 的 相应 特征 向 量 ， 这 是 因为 : 


H(x)vi = (H(x) + uDvi = HV + Mv = Nivi t+ pv = (H+ vi (4.91) 


如 果 4 足 够 大 ， 则 互 (x) 的 特征 值 都 将 为 正 ， 吾 (x) 正定 。 从 修正 反 梯度 方向 的 角度 来 考察 : 


i 站 。 兴 
Ax = —H(x) 1Vf (Xx) = "| : : jw (4.92 ) 
0 … 二 


这 同样 是 对 反 梯 度 各 分 量 进行 惩罚 ， 惩 罚 因 子 是 志 -。 当 / 趋 近 于 0, L-M 修正 趋 近 于 原始 牛 


顿 法 。 当 /足够 大 , 入 (Xx)! 的 所 有 特征 值 都 趋 近 于 相同 ,，L-M 修正 趋 近 于 梯度 下 降 ， 所 以 L-M 修 
正 是 在 牛顿 法 和 梯度 下 降 法 中 间 的 一 个 折 中 。 
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如 果 模 型 参数 很 多 , 例如 在 神经 网 络 和 深度 学 习 中 常见 的 那样 , 计算 赫 森 和 矩阵 以 及 求 逆 的 计 
算 量 不 堪 承 受 。 有 许多 方法 近似 地 模拟 赫 森 矩阵 或 它 的 道 矩阵， 它们 被 称 为 拟 牛 顿 法 ( quasi- 
Newton method )， 本 书 不 再 展开 介绍 。 


4.3.2” 共 斩 方 向 法 


共 轿 方向 法 的 思想 是 在 n 维 自 变量 空间 中 找到 一 组 方向 ,依次 沿 这 些 方向 寻找 函数 的 最 小 点 。 
当然 , 沿 某 一 个 方向 的 最 小 点 并 非 全 局 最 小 点 , 但 是 这 组 方向 具有 一 个 性 质 : 沿 其 中 某 一 方向 运 
动 时 可 以 保持 函数 值 治之 前 的 方向 为 最 小 。 当 搜索 过 程 进行 到 第 ?个 方向 ， 最 终 将 找到 全 局 最 小 
值 。 这 组 方向 必须 关于 赫 森 矩阵 共 力 。 


二 次 函数 (x) 的 赫 森 矩阵 是 常 矩 阵 旭 ， 本 节 假 设 H 是 正定 的 。 在 任意 点 x* 附 近 将 f(x) 二 阶 泰 
勒 展开 : 


Fo = fx") + Vf) (xx) + x) Hx — xX’) (4.93 ) 


利用 式 〈4.93 ) 可 以 求 FCo) 在 x 的 梯度 : 


Vf (Xx) = Vf (Xx) + H(X— XxX") (4.94 ) 


式 (4.94 ) 表明 ,f(x) 在 任意 两 点 x 和 y 的 梯度 之 差 Vf(x) 一 Vf(y) 等 于 用 赫 森 矩阵 H 乘 它们 的 
差 x 一 y。 现 在 给 出 共 轿 的 定义 。 如 果 单 位 向 量 x 和 y 满 足 : 


xiHy= yr'Hx=0 (4.95 ) 


则 称 x 和 y 关 于 瑟 共 斩 ( conjugate )。 注 意 式 ( 4.95 第 一 个 等 号 是 必然 成 立 的 ,因为 xTHy 和 yTHxX 是 标 
量 且 互 为 转 置 ， 而 标量 的 转 置 仍 是 自身 。 如 果 H 的 所 有 特征 值 都 相同 ， 则 x 和 y 关 于 H 共 e 等 价 于 
X 和 y 正 交 : 


xTHy = XITVT (: | Vy = AxiViVy = 4xIy = 0 (4.96 ) 
全 
共 斩 方向 法 在 了 "空间 中 寻找 mn 个 两 两 之 间 关 于 瓦 共 斩 的 单位 向 量 d, qd?,…, qd" ,从 任意 一 点 x? 
开始 沿 直线 x9 + hd! 寻 找 f (x) 的 最 小 点 x1， 之 后 沿 直 线 x!1 + nd2 寻 找 最 小 点 X2 ， 以 此 类 推 ， 直 到 
找到 xn 。 因 为 这 组 向 量 共 斩 , 所 以 在 每 一 条 直线 上 搜索 时 可 以 保持 在 之 前 已 经 搜索 过 的 方向 上 函 
数值 仍 为 最 小 ,最终 找 到 的 x" 就 是 f (x) 的 全 局 最 小 点 。 后 文 会 证 明 这 一 点 , 我 们 首先 看 看 如 何在 
直线 x + hd 上 寻找 使 F(x) 最 小 的 点 。 令 函数 g(h) = f(x 十 hq), 在 x 点 对 f(x + hq) 泰勒 展开 , 有 : 


已 
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gh) = f(x+hd) = f+hvf rd+ drHd (4.97) 


9 (站 是 关于 /的 一 元 二 次 函数 ， 它 对 7 的 导数 是 : 


2 和 = yf) Td +hdrHd (4.98) 
9 (hh) 对 h 的 二 阶 导数 是 : 
d2g( _ 7T 
nm =d Hd (4.99 ) 


因为 之 前 假定 HH 正定， 所 以 g (nh) 的 二 阶 导数 大 于 0， 于 是 g(h) 的 唯一 驻 点 就 是 它 的 全 局 最 小 
点 。 通 过 令 式 (4.98 ) 为 0， 求 得 9g( 门 的 驻 点 是 : 


_ Wd 


hn 一 一 (4.100 ) 
g (nh) 在 凡 点 的 导数 为 0， 即 f(x) 在 x* = x 十 h*d 沿 d 的 方向 导数 为 0: 
Vaf (x’) = Vf(x’)'d=0 (4.101 ) 


共 箔 方向 法 从 任意 点 xz 开始 ， 沿 直线 x0 + hq! 寻找 最 小 点 x1。 根 据 式 (4.100 )， 有 : 


o_ YE) a 
(di)THda! 


男根 据 式 ( 4.101 ) 有 Vf(x1)Td? = 0。 以 此 作为 数学 归纳 法 的 起 始 条 件 , 如 果 已 经 找到 了 x*， 
满足 : 


一 % (4.102 ) 


Vf(x*) Tdi =0, i=1,.,k ( 4.103 ) 


根据 式 (4.94 )，f(x) 在 直线 x* + hqd*+1 上 任意 一 点 的 梯度 是 : 


Vf(x* + hdr+1) = Vf(x*) + hHdr+! (4.104 ) 


所 以 ，F Oo 在 直线 xx + hd*+1 上 沿 之 前 k 个 方向 di (i = 1…,k ) 的 方向 导数 是 : 


Vf(x* + hd*+i)Tdi = Vf(xr)T di +h(d*+1i)THdi =0, i=1,.,k (4.105 ) 
式 (4.105 ) 利用 了 qd*+1 与 qi (i = 1,…,k ) 关于 H 共 轧 。 所 以 在 直线 x* + hd*+1 上 ，f(x) 沿 


之 前 K 个 方向 的 方向 导数 都 为 0, 也 就 是 沿 新 方向 搜索 时 可 以 保持 在 之 前 方向 上 函数 值 仍 是 最 小 。 
F Oo 在 直线 xx + hdr+1 上 的 最 小 点 是 : 


kK)T k+l 
te (4.106 ) 
(dk+1) HdK+1 


k+1 


x 一 万 
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且 有 VCOxeDTIade1l = 0， 这 是 因为 x*+! 是 f(x) 沿 直线 x* + hd*+1 的 最 小 点 ，f (x) 在 x*+1 沿 
d*+1 的 方向 导数 为 0。 利 用 数学 归纳 法 就 可 以 证 明 : 从 任意 点 出 发 依次 沿 着 共 斩 方 向 寻找 相应 直 
线 上 的 最 小 点 ， 同 时 可 以 保持 沿 已 经 搜索 过 的 方向 的 函数 值 仍 为 最 小 。 


最 后 还 需要 证 明 最 终 的 x" 是 整个 R" 空 间 中 f(x) 的 全 局 最 小 点 。 如 果 一 组 向 量 d1, d?,…, d" 关 
于 正定 五 共 斩 , 则 它们 一 定 线性 独立 , 因为 如 果 存 在 一 组 系数 w1,w2,…,w" ,满足 ?1w'd' = 0， 
则 对 任意 /有 : 


(dTHO i wid') = Driw'(d THd' = wi(di)THdi =0 (4.107 ) 


式 (4.107 ) 利用 了 qi,q?,…,qd" 两 两 共 轧 。 因 为 H 正 定 ， 所 以 只 能 是 wi/ 等 于 0， 这 对 任意 /都 
成 立 ， 所 以 dl1, qd2,…,qd" 线 性 独立 。 它 们 构成 R"* 的 一 组 基 ， 所 以 任意 一 个 单位 向 量 d 都 可 以 被 
d1, d?,…, d" 线 性 表 出 : d = ?1 widi。 于 是 f(x) 在 x" 沿 任意 单位 向 量 d 的 方向 导数 是 : 


Vaf (x") = Vf(x")'d = Yr wivf(x") d=0 (4.108 ) 


f(x) 在 x" 沿 任意 方向 的 方向 导数 都 为 0， 所 以 f(x) 在 x" 的 梯度 必然 为 零 向 量 , 于 是 x" 是 二 次 
函数 Fo) 的 驻 点 ， 也 就 是 全 局 最 小 点 。 共 斩 方 向 法 用 mn 步 找到 二 次 函数 的 全 局 最 小 点 。 


还 剩 下 一 个 问题 ， 如 何 找到 一 组 关于 吾 共 斩 的 单位 向 量 ?” 回忆 对 称 和 矩阵 的 谱 分 解 ， 可 以 找到 
H 的 一 组 正 交 单位 特征 向 量 v1,v?,…,v*， 对 于 任意 vi 和 vi ， 有 : 


(vOTHvV/ = (WOT(AV) = NV)TV = 0 (4.109 ) 


所 以 v1, v2,…,v" 就 是 一 组 关于 H 苍 的 单位 向 量 。 共 罗 f 方 向 法 的 伪 代 码 如 下 : 


Xo 所 随机 初始 化 
V1,v2,…,Vn < 二 赫 森 矩阵 的 单位 正 交 特征 向 量 
for t in 1 ton: 


t—1 v(x!) vt t 


t 
A “7 
(ozDTHE 


return x” 


共 罗 f 方 向 不 一 定 要 取 v1,v?,…,v"， 可 以 是 任意 一 组 共 轿 方向 。 对 于 非 二 次 函数 ， 可 在 某 一 
点 对 它 的 局 部 二 次 近似 执行 共 斩 方 向 法 , 找到 该 二 次 近似 的 全 局 最 小 点 , 以 该 点 作为 迭代 的 下 一 
个 点 。 如 果 某 一 点 的 赫 森 矩阵 非 正定 ,可 以 采用 诸如 L-M 修正 对 赫 森 矩阵 进行 修正 。 图 4-9 展示 
了 在 二 元 二 次 函数 上 执行 共生 方 向 法 的 搜索 路 径 。 
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图 4-9 在 二 元 二 次 函数 上 执行 共 印 方 向 法 
4.4 运用 牛顿 法 训练 逻辑 回归 


本 节 介 绍 如 何 用 牛顿 法 训练 逻辑 回归 模型 。 为 表示 得 简洁 , 先 对 逻辑 回归 的 输入 和 参数 进行 
一 个 处 理 ， 为 输入 向 量 增加 一 维 常量 1， 使 之 成 为 n + 1 维 向 量 : 


Xo 三 1 
x=| 世 (4.110) 


Xn 
将 偏 置 bp 增加 到 权 值 向 量 ， 使 它 也 成 为 n + 1 维 向 量 : 
wo=b 
w = ~ (4.111) 
Wn 
通过 添加 一 个 常量 输入 1, 并 将 偏 置 bp 纳 入 权重 向 量 w， 这样 就 可 以 认为 没有 偏 置 。 于 是 钦 辑 
回归 的 表达 式 可 以 写成 : 


f (x) = rs (4.112) 
第 3 章 已 经 计算 得 到 ， 交 又 炉 损失 函数 对 权重 向 量 w 的 梯度 是 : 
Xo 
Vloss(w) = -EY {1 (ys — ps(w)) 里- -XT(y — p(w)) (4.113) 
Xn 


训练 集 包含 M 个 样本 。y 是 由 全 体 训练 样本 的 标签 构成 的 M 维 向 量 。p(w) 是 由 全 体 预 测 概 率 
构成 的 M 维 向 量 。X 是 M x (n+ 1) 的 和 矩阵, 它 的 每 一 行 是 一 个 训练 样本 x5(s = 1,…,M )。X 称 为 
设计 和 矩阵 ( design matrix )。 


损失 函数 lossCw) 的 赫 森 矩阵 的 第 ; 行 、 第 / 列 元 素 是 其 梯度 Vloss(w) 的 第 ;分 量 对 wj 的 偏 导 数 。 
根据 式 ( 4.113 )，Vloss(w) 的 第 i 分 量 是 一 个 平均 值 ， 先 计算 其 中 一 项 对 w; 的 偏 导数 : 


S_ 5 Ss or pi 一 wTxS 
8(7S-pSCw))x 这 1+e Re = XSx p(w)(1 —p s(w)) (4.114) 


Owj Owj 1 了 (t+erwTe) 


对 式 (4.114 ) 求 平 均 ， 得 到 赫 森 矩 阵 瓦 (w) 的 第 ; 行 、 第 / 列 元 素 是 : 


HOW = — LE OP Ly exps(w) (1 — ps(w)) (4.115) 


Owj 


于 是 可 以 将 (n + TD x n+ 1) 的 赫 森 和 矩 阵 H(w) 写 为 : 


H(w) = XTP(W)X (4.116 ) 


其 中 , X 是 M x + 了 的 设计 矩 阵 ，PGw) 是 M x M 的 对 角 和 矩阵 : 
一 plGw) … 0 ) 
P(w) = : “ : (4.117) 
0 “ppY(w)(1—p*(w)) 


现在 我 们 有 了 损失 函数 loss(w) 的 梯度 和 苗 森 矩阵 的 逆 和 矩阵 H(w)-1 = M(XTP(w)X)-1。 用 牛 
顿 法 训练 逻辑 回归 模型 的 伪 代 码 如 下 : 


Ww? < 随机 初始 化 

to0 

while llVloss(w')||= e: 
w+! {ee wt Si (XTP(Ww')X) XT(y 二 p(wo9) 
人 | 

return wr! 
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现在 抛 开 牛 顿 法 的 原理 ， 从 另 一 角度 观察 一 下 该 更 新 式 的 含义 。 将 算法 迭代 中 的 权 值 更 新 变形 : 
wi + (XTP(wW')X)-1XT(y — p(w')) = (CTPGOwboDN-IXTPCOwbo 


(Xw: + P(w') 1(y — p(w'))) (4.118) 


令 z = Xw' + P(w')-1(y 一 p(w'))， 于 是 算法 更 新 式 可 以 写成 ; 
wide (XP(w')X) XTP(Ww')z (4.119) 


每 一 步 迭 代 都 将 权 值 向 量 赋值 为 (XTY(w')X)-1XTY(w')z。 这 是 什么 含义 呢 ?” 首 先 看 一 下 z 向 
量 ,， 它 是 当前 仿 射 值 Xw! 加 上 一 个 加 权 误 差 : 


pi(wt)(1-p1(w!)) 
y2-p2(wt) 
P(w') (yy — pw)) = | zwbG-zz(w9) (4.120 ) 


i 
pM(wt)(1-pM(wt)) 
对 于 某 个 训练 样本 ， 模 型 输出 的 概率 ps (w1) 越 接近 1.0 或 0.0， 则 psGw95(1 - ps(wb9) 越 小 ， 
加 在 误差 ys 一 ps(w!) 上 的 权重 越 大 ， 也 就 是 模型 越 “ 肯 定 ”， 则 对 其 失误 的 惩罚 越 严 厉 。 将 加 权 
误差 加 到 当前 仿 射 值 上 ， 就 得 到 期 待 仿 射 值 向 量 z。 考 虑 如 下 加 权 最 小 二 乘 损失 函数 : 


L(w) = IP(Ww) Kw -DE (4.121) 


式 (4.121 ) 以 p(w 中 (1 一 ps(w')) 作 为 每 个 分 量 的 权重 ,衡量 仿 射 值 Xw 和 期 待 仿 射 值 z 之 间 
的 距离 。 对 于 某 个 训练 样本 ， 模 型 输出 概率 越 接近 0.5， 则 权重 越 大 ， 也 就 是 对 模型 不 太 肯 定 的 
样本 给 予 更 大 的 重视 。L(w) 是 w 的 二 次 函数 ， 其 梯度 是 : 


VL(wW) = XTP(w!')(Xw — 7) (4.122 ) 
现在 令 VL(w) = 0， 求 得 驻 点 是 : 


= (XTP(w')X) 1XTP(w')z (4.123 ) 


驻 点 w* 正 是 式 (4.119 ) 赋 给 w+! 的 值 。 所 以 牛顿 法 每 一 步 更 新 的 含义 是 以 模型 的 确定 性 为 
权重 ,用 误差 y - p(w) 构造 期 待 仿 射 值 向 量 z， 之 后 以 模型 不 确定 性 为 权重 ,寻找 使 Xw 与 z 之 间 
距离 最 小 的 w* 作 为 下 一 步 迭 代 值 。 
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4.5 牛顿 法 训练 逻辑 回归 的 Python 实现 


本 节 , 我 们 实现 运用 牛顿 法 训练 的 逻辑 回归 模型 。 代 码 主体 与 第 3 章 的 相同 , 但 是 不 再 使 用 
梯度 下 降 优化 器 ， 而 是 在 循环 体 中 硬 编 码 牛顿 法 更 新 公式 ， 请 看 如 下 代码 : 


import numpy as np 


class LogisticRegression nt: 
def init (self, iterations = 10): 
self.iterations = iterations # 壕 代 次 数 


def train(self, x, y): 
X 为 矩阵 ， 形 状 是 n_samples * n features， 每 一 行为 一 个 样本 
y 为 和 矩阵， 形状 是 m_samples * 1， 元 素 为 样本 的 标签 ， 正 类 为 1， 负 类 为 0 


mn 


# 在 X 最 前 面 添 加 一 列 常 数 1， 作 为 偏 置 值 的 输入 ， 以 简化 公式 
x= np.mat(np.c [[1.0] * x.shape[0], x]) 
I = np.eye(x.shape[1]) # 构造 一 个 单位 矩阵 


# 根据 X 的 列 数 ( 特 征 数 ) 随机 初始 化 权 值 ， 此 时 偏 置 值 纳 入 了 权 值 向 量 ， 相 当 于 第 一 个 权 值 
# 权 值 向 量 为 n_features + 1 维 向 量 ， 每 个 分 量 以 0 均值、0.01 标准 差 的 正 态 分 布 初始 化 
self.weights = np.mat(np.random.normal(0, 0.01, size=x.shape[1])).T 


for i in range(self.iterations): 


# 计算 当前 模型 对 训练 集 样本 的 输出 
p = self.predict(x, False) 
w= np.mat(np.diag(np.multiply(p, 1.0 - p).A1)) 


# 牛顿 法 的 更 新 式 
self.weights = self.weights + (x.T * Ww* x + 1e-10 * I).I * x.T* (y - p) 


# 评估 当前 模型 并 打印 训练 信息 
全 和 0 
# 交叉 粒 损 失 
cross entropy = (-y.T * np.log(p) - (1.0 - y).T * np.log(1 - p)) / y.shape[0] 


# 正确 率 
accuracy = np.sum(((p > 0.5).astype(np.int) == y). 
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astype(np.int)) / y.shape[0] 


piint(" 迁 代 : {:d}， 交 又 炳 : {:.6f}， 正 确 率 : {:.2f}%".format( 
i + 1, cross entropy[0, 0], accuracy * 100) ) 


def predict(self, x, augment = True): 
预测 函数 。X 为 矩阵 ， 形 状 是 n_samples * n_features， 每 一 行为 一 个 样本 
augment 参数 指示 是 否 要 在 特征 矩阵 前 添加 一 列 常量 1 
# 在 X 最 前 面 添加 一 列 常数 1， 作 为 偏 置 值 的 输入 
if augment : 
x= np.mat(np.c [[1.0] * x.shape[0], x]) 


a = -np.matmul(x, self.weights) 
a[a > 1e2] = 1e2 # 防止 数值 过 大 
p=1.0/ (1.0 + np.power(np.e, a)) 


# 前 裁 概 率 值 ， 保 证 其 为 合法 的 概率 什 
p[p >= 1.0] = 1.0 - 1e-10 


plp <= 0.0] = 1e-10 


return p 


代码 中 的 LogisticRegression_nt 类 就 是 运用 牛顿 法 训练 的 逻辑 回归 模型 ， 它 不 再 需要 优化 
器 对 象 。 训 练 的 核心 在 循环 体 中 的 这 一 行 代码 : 


| 


self.weights = self.weights + (x.T *+w* x + 1e-10 * I).IT * x.T* (y -op) 


这 就 是 牛顿 法 的 更 新 公式 。 其 中 ，1e-10 * I 是 对 角 线 元 素 为 小 常量 值 的 对 角 和 矩阵 ， 它 被 加 
在 赫 森 和 矩阵 上 ， 防 止 赫 森 矩阵 奇异 ， 这 就 是 L-M 修正 。 机 器 学 习 算 法 编程 是 背后 数学 原理 的 实 
现 , 与 其 他 程序 不 同 , 仅仅 看 源 代 码 无 法 明白 程序 是 如 何 运 作 的 。 上 述 实现 的 关键 之 处 只 有 这 一 
名 ,必须 理解 原理 才能 明白 它 为 什么 起 作用 。 现在 将 该 模型 用 于 鸟 类 生态 类 群 问题 。 在 这 个 问题 
下 ,牛顿 法 具有 更 快 的 收敛 速度 。 


import pandas as pd 

import numpy as np 

from optimizer import * 

from lr nt import LogisticRegression nt 

from sklearn.metrics import accuracy score, precision score, recall score, roc auc score 
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bird = pd.read csv("bird.csv").dropna().drop("id", axis=1) 


# 根据 标签 是 否 属于 "SW"，"W"，"R" 三 类 ， 构 造 二 分 类 1/0 标签 
bird["type"] = bird.type.apply(lambda t: t in ["SW", "W", "R"]).astype(np.int) 


data = bird.values 
# 将 样本 随机 洗 牌 
np.random.shuffle(data) 


# 前 300 个 样本 作为 训练 集 
train x = np.mat(data[:300,:-1]) 
train y = np.mat(data[:300,-1]).T 


# 其 余 样本 作为 测试 集 
test x = np.mat(data[300:,:-1]) 
test y = np.mat(data[300:,-1]).T 


# 构造 远 辑 回归 对 象 ， 和 迭代 次 数 取 10 
lr = LogisticRegression nt(10) 


# 在 训练 集 上 训练 


lr.train(train x, train y) 


# 对 测试 集 进行 预测 
p = lr.predict(test x) # 模型 预测 的 正 类 概率 
pred = (p > 0.5).astype(np.int) # 以 0.5 为 闵 值 时 ， 模 型 预测 的 类 别 


piint(" 正 确 率 : {:.2f}%， 查 准 率 : {f:.2f}%， 查 全 率 : {:.2f}%，ROC 曲线 下 面积 : {:.3f}".format( 
accuracy_score(test y, pred) * 100， 
precision score(test y, pred) * 100， 
recall score(test y, pred) * 100， 
roc auc score(test y.A, p))) 


4.6 小结 


本 章 首 先 回顾 了 必要 的 矩阵 知识 ， 之 后 介绍 了 多 元 函数 的 局 部 二 阶 特性 一 一 赫 森 矩阵 以 及 二 
阶 泰勒 展开 。 二 阶 泰勒 展开 是 函数 在 局 部 的 二 次 近似 。 二 次 函数 的 图 像 是 抛物 面 一 一 或 椭圆 抛物 面 


或 双 曲 抛物 面 ( 马鞍 面 )。 无 疑 ， 二 次 函数 的 形状 比 平面 更 复杂 ， 它 能 够 更 精确 地 近似 函数 的 局 部 
形状 。 如 果 优 化 算法 能 够 利用 损失 函数 的 局 部 二 阶 信息 ， 它 就 应 该 能 够 比 梯度 下 降 法 表现 得 更 好 。 


本 章 介 绍 了 两 个 基于 函数 局 部 二 阶 特性 的 优化 算法 : 牛顿 法 和 共 轿 方向 法 。 当 待 优化 函数 是 
二 次 函数 且 赫 森 矩 阵 正定 时 , 它们 分 别 能 够 以 1 步 和 n( 自 变 量 空间 的 维 数 ) 步 找到 全 局 最 小 点 。 
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对 于 非 二 次 函数 , 可 在 一 个 点 的 局 部 二 次 近似 上 施加 牛顿 法 或 共 斩 方 向 法 ,以 二 次 近似 的 全 局 最 
小 点 作为 迭代 的 下 一 个 点 。 从 修正 反 梯度 方向 的 视角 看 牛顿 法 , 我们 发 现 它 惩罚 二 阶 导 数 较 大 的 
特征 方向 上 的 反 梯 度 分 量 。 当 函数 在 各 个 特征 方向 上 的 二 阶 导 数 差 异 较 大 时 , 牛顿 法 所 做 的 修正 
可 避免 较 大 二 阶 导数 方向 主导 反 梯 度 方向 ， 从 而 一 定 程度 上 改善 梯度 下 降 法 的 效果 。 


当 模型 参数 很 多 时 ,计算 赫 森 矩阵 及 其 逆 矩 阵 的 计算 量 是 巨大 的 ， 人 

和 深度 学 习 中 并 不 常用 , 但 是 了 解 二 阶 优化 算法 对 于 理解 损失 函数 的 局 部 形态 很 有 帮助 。 本 章 
后 介绍 了 如 何 运 用 牛顿 法 训练 逻辑 回归 模型 , 这 对 于 深刻 理解 逻辑 回归 是 一 个 有 益 的 补充 。 
完 本 章 ， 读 者 应 该 对 函数 的 局 部 形态 有 了 更 透彻 的 理解 ， 同 时 对 函数 优化 也 有 了 更 深刻 的 洞 见 。 


正 则 化 


在 机 器 学 习 建 模 实践 中 ， 模 型 自由 度 、 偏 置 -方差 权衡 、 过 拟 合 与 从 拟 合 以 及 正则 化 是 很 重 
要 的 概念 。 模 型 对 未 来 样本 的 预测 误差 由 三 部 分 组 成 : 模型 预测 的 偏 置 、 模 型 预测 的 方差 以 及 问 
题 回 有 的 误差 。 模 型 预测 的 偏 置 与 方差 此 消 彼 长 ， 自 由 度 控 制 模型 在 高 偏 置 - 低 方差 和 低 偏 置 - 
高 方差 两 个 极端 之 间 进 行 权 衡 , 这 种 权衡 影响 模型 未 来 的 预测 表现 。 模 型 自由 度 受 很 多 因素 影响 ， 
正则 化 是 控制 自由 度 的 一 个 重要 手段 。 


本 章 首 先 回顾 必要 的 概率 论 知识 , 之 后 我 们 介绍 线性 回归 模型 , 并 在 线性 回归 的 框架 下 讲解 
模型 的 自由 度 和 偏 置 -方差 权衡 。 在 线性 回归 框架 下 ， 这 些 概 念 有 精确 的 数学 表述 。 接 着 ， 我 们 
由 “上 岭 回归 ”而 引入 £2 正则 化 , 并 从 主 成 分 和 贝 叶 斯 后 验 概率 两 种 视角 解释 £2 正 则 化 的 含义 。 我 
们 还 简单 讲解 正则 化 、 它 的 效果 以 及 它 与 5 正则 化 的 异同 。 最 后 我 们 介绍 如 何在 逻辑 回归 的 训 
练 中 引入 £2 正则 化 。 


这 些 概念 虽然 是 在 线性 回归 框架 下 引入 和 阐释 的 , 但 它们 也 适用 于 任何 机 器 学 习 模 型 。C 和 
£2 正则 化 可 以 直接 应 用 于 神经 网 络 和 深度 学 习 。 除 正则 化 外 ,模型 自由 度 还 受 很 多 其 他 因素 影响 ， 
例如 模型 的 结构 和 规模 、 对 训练 过 程 的 限制 、 随 机 性 等 。 建 模 实践 中 最 重要 的 就 是 运用 各 种 显 式 
的 超 参数 和 隐 含 的 设计 选择 来 调节 模型 自由 度 ， 在 偏 置 -方差 权衡 中 寻找 最 佳 模型 。 


5.1 概率 论 回顾 


第 2 章 介绍 交叉 箭 损失 的 贝 叶 斯 视角 时 ,已 经 涉及 了 一 部 分 概率 论 方 面 的 内 容 ， 本 章 在 进 
入 正题 之 前 还 需要 更 系统 地 回顾 一 些 概率 论 的 知识 。 本 节 的 回顾 着 重 于 多 元 随机 变量 ， 即 随机 
向 量 。 
5.1.1 随机 变量 

本 节 首 先 回顾 一 元 随机 变量 的 相关 知识 ,包括 概率 密度 、 独 立 、 期 望 、 方 差 、 协 方差 、 相 关 
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系数 。 本 书 用 和 斜 细 体 大 写字 母 表示 随机 变量 ， 如 X 和 Y。 对 于 一 个 随机 变量 X,， 存在 一 个 连续 函数 
px: 民 一 民 ，X 落 在 区 间 S Ss 民 的 概率 是 : 


P(X ES) = [spx(x) dx (5.1) 


px(X) 的 值 称 为 随机 变量 X 在 x 的 概率 密度 。 函 数 px(x) 称 为 随机 变量 X 的 概率 密度 函数 或 分 布 ， 


可 简写 为 px。 由 于 X 落 在 任何 区 间 的 概率 都 不 为 负 ， 所 以 对 任何 x 必 有 px(x)= 0， 否 则 如 果 对 某 
个 x* 有 px(x*) < 0, 因为 px (x) 连 续 , 所 以 存在 x* 的 一 个 邻 域 $ = (x* 一 6,x’* 十 @), 对 $5 内 的 所 有 x， 
都 有 px(x) < 0, 于 是 [px(x) dx < 0, 这 与 概率 非 负 了 矛盾。 由 于 X 必 然 落 在 民 中 ， 所 以 X € 民 概率 
是 1， 即 ; 


P(X ER)= /px(x)dx=1 (5.2) 
概率 密度 函数 必须 连续 、 非 负 且 在 实数 轴 上 积分 为 1。 两 个 随机 变量 X 和 Y，X 为 Y 且 Y 为 y 的 
概率 密度 函数 pxy(% 切 称 为 和 7 的 联合 概率 密度 函数 或 联合 分 布 (joint distribution )。 将 联合 分 
布 pxy(% 对 Y 的 所 有 可 能 取 值 做 积分 ， 就 得 到 X 的 概率 密度 函数 : 


px(x) = [5 pxy(Xy) dy (5.3) 


也 可 以 对 X 的 所 有 取 值 做 积分 ， 得 到 Y 的 分 布 py。 如 果 X 和 Y 的 联合 分 布 pxy 满 足 : 


pxy = pxpy (C54) 
则 称 随机 变量 X 和 Y 是 独立 的 (independent )。 随机 变量 X 在 分 布 px 下 的 期 望 (exception ) 定义 为 : 


忆 x (CD) = 人 Xpx(X) dx (5.5) 


其 望 是 随机 变量 所 有 可 能 取 值 以 概率 密度 为 权 的 加 权 均 值 ,不 引起 混淆 的 情况 下 可 将 E,,(X) 
写成 Ex。 对 于 X 和 Y 以 及 实数 a 和 b， 随 机 变量 aX + bY 的 期 望 是 : 


Bxy(aX +bY)= f°, fax + by)pxy dxdy = af x/ pxrdydx+ 


bf yf pxydxdy =af™ xpxdx +b /ypydy = aBx + bEy (5.6) 


对 于 常数 C, X + C 的 期 望 是 : 
Epx(X+C)= Ex+C/ pxdx= Ex+C (5.7) 


如 果 X 和 Y 独 立 ， 有 : 
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Byxy(XY) = [5 /oxypxy dx dy = [5 [5 xypxpy dx dy 
= 三 xpxdx .三 ypyrdy = ExEy (5.8 ) 


Bpxy (XY) 可 简写 为 Exy。X 在 分 布 px (x) 下 的 方差 ( variance ) 定义 为 : 


Varpy (X) = Eyy ((x 一 Ex(X)) ) = 三 (x 一 Epx (2)) Dx(X) dx (5.9) 


方差 是 X 与 期 望 B,,(X) 之 差 的 平方 在 分 布 px (Xx) 下 的 期 望 , 不 引起 混淆 的 情况 下 可 写作 varx。 方 
差 反映 的 是 随机 变量 偏离 其 均值 的 分 散 程度 。X 的 标准 差 ( standard deviation ) 是 它 的 方差 的 平方 根 : 


stdx = VVarx (5.10) 


随机 变量 X 和 Y 的 协 方差 ( covariance ) 是 : 


GoVvpyy HY) = Byyy ((x — E,, GO) (7 加 Boy(Y))) (5.11) 


不 引起 混淆 的 情况 下 可 将 协 方差 写作 covxy。varx 其 实 就 是 covxx。 容 易 看 出 covxy = covyx。 
将 covxy 的 表达 式 变 形 : 


covxy = E((X — Ex)(Y — Ey)) = E(XY — XEy — YBEx + ExBy)= Exy — ExEy (5.12) 
推导 式 (5.12 ) 时 注意 B& 和 Ey 不 是 随机 变量 。 根 据 式 (5.12 ) 有 : 
varx = coVvxx = Ex2 — Ex? (5.13) 
式 (5.13 ) 在 分 解 模 型 预测 误差 时 将 会 用 到 。 根 据 式 (5.13 )， 对 于 任意 实数 a 和 b 有 : 
CoVaxpy = Eapxy — EaxEpy = ab(Exy — ExEy) = ab :covxy (5.14) 
根据 式 (5.14 ) 有 varsx = a? .vary。 对 于 随机 变量 X，Y 和 2Z 有 : 


COVXY7+Z 一 Ex(y+2) ExEyi4z 2 Exy 十 Fxz < ExEy FxEyz COVx,Y 十 COVXZ (5.15 ) 


至 此 ， 我 们 得 到 期 望 、 方 差 和 协 方差 的 若干 计算 定律 ， 后 文 会 频繁 用 到 。 随 机 变量 X 和 Y 之 
间 的 相关 系数 ( correlation coefficient ) 定义 为 : 


COVXY 
COFTyy = .| 
XY 一 Sux stdy (5.16) 


如 果 X 和 Y 独 立 ， 根据 式 (5.8 ) 有 Exy = ExBy， 再 根据 式 (5.12 )， 它 们 的 协 方差 和 相关 系数 
为 0， 即 如 果 X 和 Y 独 立 ， 则 它们 不 相关 。 但 是 X 和 Y 不 相关 并 不 意味 着 它们 独立 。 相 关系 数 衡量 
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两 个 随机 变量 呈 线 性 关系 的 程度 ,两 个 不 独立 的 随机 变量 之 间 也 可 以 几乎 没有 线性 关系 , 这 导致 
它们 之 间 相 关系 数 很 小 ， 如 图 5-1 所 示 。 


a6 


#6 a6 
相关 系数 ; 0. 981 相关 系数 : 0. 804 相关 系数 ; -0. 476 
4 加 14 os 4 
[i 2 . | “ 
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图 5-1 相关 系数 衡量 两 随机 变量 之 间 的 线性 关系 


5.1.2 多 元 随机 变量 


多 元 随机 变量 即 随机 向 量 ( random vector )。 本 书 仍 用 斜 细 体 大 写字 母 表示 随机 向 量 ， 如 X 
和 Y。 用 脚 标 表 示 随机 向 量 的 分 量 ， 如 X 表 示 X 的 分量 。 随 机 向 量 的 取 值 是 向 量 ， 如 x 和 y。 对 随 
机 向 量 X, 存在 连续 的 概率 密度 函数 px (x): R* 一 民 , 将 X 的 取 值 x e R" 映 射 到 它 的 概率 密度 。X 落 
在 区 域 S c R" 的 概率 是 : 


P(X € S) = [spxCx)dx=f { … /px(X) dxidxz *… dxn (5.17) 


对 于 任意 XxX， 必须 满足 px (x)= 0， 并 且 px (x) 必须 满足 : 


P(X € R") = [rnpx(X)dx = [ff PX) dxidxa dxn = 1 


随机 向 量 X 的 第 i 分 量 Xi 是 一 个 随机 变量 。 将 px (Xx) 对 其 他 分 量 X(j 去) 积分 ， 可 得 到 Xi 的 
概率 密度 函数 : 


(5.18) 


pxi(X) = [pn-ipx (X) dxjzi ( 5.19) 


其 中 ，px,(x) 称 为 X 的 第 i 分 量 的 边缘 分 布 ( marginal distribution )。 同 样 可 以 求 X 的 几 个 分 量 的 联 


合 边 缘分 布 (joint marginal distribution ),， 只 要 将 px(x) 在 其 他 分 量 上 积分 即 可 。 例如 求 第 i 和 第 j 分 
量 的 联合 边缘 分 布 ， 就 是 将 px (x) 对 其 他 分 量 X。(s 去 ij ) 做 积分 : 


pxixj(X) = f rn-2px (X) dxXszij ( 5.20) 


106 第 5 章 正则 化 


5.1.3 多 元 随机 变量 的 期 望 和 协 方差 矩阵 
随机 向 量 X 在 分 布 px (x) 下 的 期 望 是 : 
Ey (X1) [nxipx Cx) dx [oxipx, (X)dx Ex, 
Eyy(X) = : = : = : =| : (5.21) 
E,y (Xn) J nxnpx(X) dx [xnpx, (x) dx Ex, 
式 (5.21 ) 的 第 三 步 变 更 多 重 积 分 的 顺序 ， 将 求 期 望 的 分 量 提 到 最 外 层 ， 内 层 积分 的 结果 就 


是 该 分 量 的 边缘 概率 密度 。 随 机 向 量 X 的 期 望 是 由 它 的 每 个 分 量 的 期 望 组 成 的 向 量 , 可 简写 成 Ex。 
随机 向 量 X 在 分 布 px(x) 下 的 协 方差 矩阵 (covariance matrix ) 是 : 


COVX1 ,XI i EE 
上 (5.22 ) 


cov(X) = ( 


COVxnX1 COVxnXn 


cov(X) 可 简写 作 covx。 它 的 第 i 行 、 第 j 列 元 素 是 分 量 X,: 和 Xj 的 协 方差 .， 对 角 线 元 素 就 是 各 分 
量 的 方差 。 因 为 covxrxj = covxj,x;， 所 以 covx 是 对 称 和 矩阵 。 


容易 验证 ,对 于 随机 向 量 X 和 和 矩阵 4 ,4AX 的 期 望 E4x 是 4Ex ,AX 的 协 方差 矩阵 covax 是 Acovax47。 
只 要 将 元 素 展开 并 计算 它们 的 期 望 和 协 方差 ， 就 可 以 验证 这 两 条 性 质 ， 这 里 忽略 细节 。 


5.1.4 样本 均值 和 样本 协 方差 矩阵 


在 实际 问题 中 并 不 知道 数据 的 真实 分 布 , 但 可 以 从 样本 中 估计 数据 的 期 望 和 协 方差 矩阵 。 假 
如 观察 到 随机 向 量 X 的 M 个 样本 x: (i = 1,…,M )， 每 个 样本 都 是 " 维 向 量 ， 将 这 些 样本 作为 行 ， 


构造 M x n 的 设计 和 矩 阵 : 
(x 
Xixn = 的 (5.23 ) 
(x™)T 


样本 均值 x 是 全 部 样本 的 平均 值 ; 
T= Px (5.24 ) 


令 X' (i= 1…,M) 是 M 个 独立 的 随机 向 量 ， 它 们 都 与 X 同 分 布 。X 是 这 M 个 随机 向 量 的 平 
均 ， 也 是 一 个 随机 向 量 。 将 每 个 样本 xi 视 作对 Xi 的 一 次 采样 ， 则 zt 就 是 对 X 的 一 次 采样 。X 的 期 


望 是 : 
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Ex=E (S21X!)= 37 BX) = 7 EX) = Ey (5.25) 


所 以 称 X 是 Ex 的 无 偏 估计 (unbiased estimator )， 因 为 xX 的 期 望 是 Ex。 现 在 估计 X 的 第 i 和 第 j 分 
量 之 间 的 协 方差 covx,x,， 我 们 定义 样本 协 方差 sij 是 : 


5i,j 二 E(x zi) (xF SD 元 ) (5.26 ) 


x 是 第 k 个 样本 x* 的 第 i 分 量 , Xz: 是 全 体 样本 的 第 i 分 量 的 平均 值 ， x 和 克也 类 似 。 分母 为 什么 
十 M 一 工 ， 这 需要 说 明 。 sij 的 期 望 是 : 


二 人 1 
E,, =E (二 (XK 一 Xi) (Xr 一 多 )) 二 7 Dh (Esc Exkz, 一 Exkx, 十 Ex (5.27) 
考察 式 (5.27 ) 中 的 每 一 项 。 根 据 式 (5.12 )， 第 一 项 可 以 变形 : 


Exkxk = COVxk x¥ 十 ExkE yr = COVx,x) 十 ExiExi (5.28) 


式 (5.28 ) 成 立 是 因为 Xt 与 Xi 同 分 布 ，X 与 加 同 分 布 。 式 (5.27 ) 的 第 二 项 是 : 


1 
Eks =COV ks + ExEz,=—Y Mcov Ey,Ey, 一 二 COVy y 十 下 By 淮 
Xj 十 XK 元 2s=1 3 + xilx; 二 万 COVXPX) 十 Exibx, (5.29 ) 


样本 之 间 的 独立 性 使 covxy xs = 0 (去 s)， 所 以 加 和 式 的 M 项 中 只 剩 下 covyp xx。 和合 与 后 同 
分 布 ， 允 与 7 同 分 布 ， 所 以 covp x = covxoxjo 另外 久 和 XX; 的 期 望 相 同 ， 所 以 式 (5.29 ) 成 立 。 
基于 同样 的 证 明 ， 式 ( 5.27 ) 的 第 三 项 也 等 于 同样 的 值 。 最 后 考察 式 ( 5.27 ) 的 第 四 项 : 


二 一 工 NM vM 二 法 
Exix; = COVxix; + 已 XiEX) = TLs=1 pe COVxg xf + ExiEx; = 元 COVxixy) 十 ExiEx; (5.30) 


因为 样本 间 的 独立 性 ,双重 加 和 项 中 只 有 s 与 t 相 等 的 M 个 项 不 为 0, 且 都 等 于 covxx,。 另 外 ， 
总 与 局 的 期 望 相同 ， 吕 与 轧 的 期 望 相同 ， 所 以 式 (5.30 ) 成 立 。 将 这 四 项 代入 式 (5.27 ) 得 到 : 


1 Mm M-1 
了 = 一 一 11 一 一 
Sij M-1 人 KE=1 Mm 


所 以 sij 是 covxx 的 无 偏 估 计 。 为 了 无 偏 ， 分 母 要 取 M - 1。 以 st) 为 元 素 构成 样本 协 方差 失 
阵 9， 它 是 对 协 方差 矩阵 covx 的 无 偏 估计 。 根 据 式 ( 5.26 )， 可 以 把 样本 协 方差 矩阵 8 写成: 


COVxixy = COVxix) (5.31) 


5= 二 (X-3)T(X-D) (5.32 ) 


其 中 ，X 是 设计 算 阵 ， 其 每 一 行 是 一 个 样本 xi (i = 1,…,m )。 刁 是 M xm 的 矩阵 ， 它 的 每 一 行 都 
相同 ， 都 是 样本 均值 不 = 二 2 公 ; 和 的 转 置 。 式 〈5.32 ) 容易 验证 ， 这 里 不 青 袭 述 。 将 样本 “中 心 
化 ”就 是 对 每 个 分 量 减 去 该 分 量 在 样本 集 的 均值 ， 中 心 化 之 后 的 设计 矩阵 是 : 
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大 一 大 一 天 (5.33) 


为 了 论述 简洁 ， 后 文 假设 样本 都 已 经 中 心 化 ， 并 直接 用 X 而 不 是 X' 表 示 已 中 心 化 的 样本 集 。 
根据 式 (5.32 ),，5 = 示 iXIX 是 样本 协 方差 矩阵 。$ 的 对 角 线 元 素 sz 是 第 ;分 量 的 样本 方差 ， 非 对 
角 线 元 素 si 是 第 ;分 量 和 第 /分 量 的 样本 协 方差 。$ 是 对 称 矩 阵 ， 因 为 根据 式 〈5.26 )，siy 与 si 相 
等 。5 是 半 正 定 的 ， 因 为 对 于 任意 向 量 y， 有 : 


TSy =_t yrxTXy = TXY 一 -上 > 
y'Sy = YX XY = XY) XY = XY, Xy)> 0 (5.34 ) 


如 果 X 的 列 线性 独立 ， 则 样本 协 方差 矩 阵 5 正定 ， 因 为 对 于 任意 非 零 向 量 y 都 有 Xy z 0, 于 是 
y15y = 二 (XY,Xy) > 0， 所 以 S$ 正定。 正定 矩阵 的 所 有 特征 值 为 正 ， 利 用 式 ( 4.80 ) 可 构造 $ 的 
逆 和 矩阵 。 


反之 , 如 果 X 的 列 线性 相关 ， 则 样本 协 方差 矩阵 5 不 可 逆 ， 因为 存在 非 零 向 量 y 使 Xy = 0, 于 
是 yTSy = 0， 将 $ 谱 分 解 为 VTAV， 令 z = Vy， 因 为 V 的 列 线性 独立 日 y 关 0， 所 以 z 关 0 且 : 


7yTSy = yiViAVy = ZT4z = YM Nizi? (5.35) 


因为 z 必 有 非 0 分 量 , 如 果 $ 的 特征 值 都 大 于 0, 于 是 根据 式 (5.35 ) 有 yr5Sy > 0, 产生 矛盾 。 
所 以 S 必 有 0 特征 值 。 令 0 特征 值 对 应 的 特征 向 量 是 v， 若 5 可 逆 ， 则 有 : 


v=S$-1Sv= S$-1(0xv)=0 (5.36) 


这 与 特征 向 量 不 为 零 向 量 矛 盾 ， 所 以 $ 必 然 不 可 逆 。 设 计 和 矩阵 X 的 列 线性 相关 就 是 样本 集 的 
各 个 特征 线性 相关 ， 这 种 情况 称 样本 集 存在 多 重 共 线 性 ( multi-collinearity )。 


5.1.5 主 成 分 


样本 协 方差 矩阵 不 一 定 是 对 角 和 矩阵 ， 即 它 的 非 对 角 线 元 素 不 一 定 为 0， 也 就 是 说 各 分 量 之 间 
的 样本 协 方 差 不 一 定 为 0， 它 们 有 可 能 呈 一 定 程度 的 线性 关系 ， 如 图 5-2 所 示 。 
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协 方 若 : 0. 483 


1-3 


图 5-2 ”两 个 分 量 之 间 呈 一 定 程度 的 线性 关系 


现在 对 每 一 个 样本 xi 构 造 新 的 样本 yi = Vxi, V 是 样本 协 方 差 矩 阵 的 谱 分 解 中 的 正 交 矩阵 ， 
它 的 行 是 R"* 的 一 组 标准 正 交 基 ，y' 的 分 量 是 样本 x 向 这 组 基 的 投影 ( 坐标 )。 新 样本 的 设计 和 矩 


阵 是 : 
(y')T (Vx!)T (x ) VT 
Y= : -| : )-( : jz (5.37) 
(y™)T (Vx™)T (x™) VT 


因为 样本 集 x' (i = 1,…,M ) 经 过 中 心 化 ， 即 x = 0， 所 以 新 样本 集 的 样本 均值 是 : 


了 = 二 2 Vx =V (LE x) = VI=0 ( 5.38) 


所 以 新 样本 集 也 是 中 心 化 的 。 新 样本 集 的 样本 协 方差 矩阵 是 : 


YY = VXTXVT = TSVT = YYT4VyyT7 = 4 (5.39 ) 


新 样本 集 的 样本 协 方差 矩阵 是 对 角 阵 , 它 的 各 分 量 不 相关 。 新 样本 的 第 一 个 分 量 称 为 原样 本 
的 第 一 主 成 分 (first principle component )。 第 一 主 成 分 的 样本 方差 是 $ 的 第 一 大 特征 值 和 。 业 的 特 
征 向 量 v! 称 为 第 一 主 成 分 方向 。 新 样本 的 第 二 个 分 量 称 为 第 二 主 成 分 ( second principle 
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component )。 第 二 主 成 分 的 样本 方差 是 $ 的 第 二 大 特征 值 如 。 乱 的 特征 向 量 z2? 称 为 第 二 主 成 分 方 
向 ， 以 此 类 推 。 


上 述 过 程 叫 作 主 成 分 分 析 ( principle component analysis )。 主 成 分 分 析 的 本 质 是 通过 对 样本 
协 方差 矩阵 进行 谱 分 解 ， 得 到 一 个 新 的 坐标 系 。 新 坐标 系 的 第 一 个 坐标 轴 沿 着 第 一 主 成 分 方向 ， 
样本 在 其 上 的 投影 称 为 第 一 主 成 分 , 第 一 主 成 分 具有 最 大 方差 。 第 二 个 坐标 轴 沿 着 第 二 主 成 分 方 
向 , 样本 在 其 上 的 投影 称 为 第 二 主 成 分 , 第 二 主 成 分 具有 第 二 大 方差 .以 此 类 推 。 样 本 的 各 个 主 
成 分 之 间 不 相关 。 


主 成 分 分 析 相 当 于 旋转 坐标 轴 , 使 样本 集 最 分 散 的 方向 沿 着 第 一 坐标 轴 , 垂直 于 第 一 坐标 轴 
的 第 二 分 散 的 方向 沿 着 第 二 坐标 轴 ， 以 此 类 推 ， 如 图 5-3 所 示 。 


总 方差 : 1. 392 


第 一 主 成 分 访 向 ， 方 差 : 1. 294 


4 1 A 
1 2 3 


第 寺 主 成 分 方向 ， 方 差 : 0. 098 
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图 5-3” 主 成 分 分 析 相 当 于 旋转 坐标 系 
新 样本 协 方差 矩阵 的 迹 等 于 原样 本 协 方差 矩阵 的 迹 : 


tr ( 志 YITY) = tr(VSVT) = tr(YTVS) = tr(sS) (5.40 ) 


这 说 明 新 样本 各 分 量 的 样本 方差 之 和 等 于 原样 本 各 分 量 的 样本 方差 之 和 。 也 就 是 说 , 主 成 分 
保留 了 原样 本 集 的 变化 信息 ， 但 去 除了 分 量 与 分 量 之 间 的 相关 性 。 
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主 成 分 可 用 作 数 据 降 维 。 假 设 原 样本 为 n 维 ,但 如 果 前 k < ?个 主 成 分 的 方差 之 和 占 了 总 方 
差 的 绝 大 部 分 ， 例 如 95%， 则 说 明 样 本 主要 在 前 k 个 主 成 分 方向 上 有 差别 ， 在 其 他 主 成 分 方向 上 
差别 很 小 ， 可 视 为 噪声 。 抛 弃 后 n 一 k 个 主 成 分 ， 就 在 不 损失 有 用 信息 的 前 提 下 ， 将 数据 从 n 维 降 
到 了 K 维 ， 如 图 5-4 所 示 。 


总 方 着 :1.477 


第 ie 主 般 分 方向 ， 方 差 :1. 470 


1 2 3 


第 二 主 成 分 方向 ， 方 差 : 0. 007， 噪 声 
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图 5-4” 主 成 分 用 作 降 维 ， 反 映 数 据 的 真实 维 


汝 


5.1.6 正 态 分 布 
本 节 讨 论 正 态 分 布 (normal distribution )， 让 我 们 先 从 最 简单 的 情况 开始 。 符 随机 变量 X 的 概 
率 密度 函数 是 : 
px(x) = 专 e- (5.41) 


则 称 X 服 从 正 态 分 布 N(0,1), 记 为 XY~N(0,1)。 首先 需要 证 明 式 (5.41 ) 满 足 概率 密度 函数 的 要 求 。 
px(x) > 0 和 连续 性 没有 问题 ， 需 要 证 明 [ ,px(x) dx = 1， 我 们 看 : 


区 对 x2+y2 


x2 oo 的 0 
(三 pxCo) dx = 二 太 e zdx:./, e-7 dy = 二 及。 /|e 2 dxdy (5.42) 


转化 为 在 极 坐标 下 积分 ， 式 (5.42 ) 等 于 : 
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oo 2 1 r2mr ro  - 王 J 
(/_- px(x) dx) = 二 人 re zdrd0 = 二:2n=1 (5.43) 


这 就 证 明了 /px(x) dx = 1, px(x) 确 实 是 一 个 概率 密度 函数 。 px(x) 是 偶 函 数 , 则 xpx(x) 是 
奇 函 数 ， 奇 函数 在 实数 轴 上 积分 为 0， 所 以 X 在 px 下 的 期 望 是 0。 欲求 X 在 px 下 的 方差 .利用 分 部 


积分 公式 [ udv = uv 一/ vdu, 令 u = x, v=e-*/2， 有 : 


Varpx (X) = fx? py(X) dx = | 村 全 这 三 起 (9 je 
A 了 
三 一 2 Ee 十 质 
式 (5.44 ) 最 后 一 个 等 号 后 有 两 项 ， 根 据 洛 必 达 法 则 ， 第 一 项 在 正 负 无 穷 处 的 极限 都 是 0， 
所 以 该 项 是 0, 第 二 项 就 是 px 在 实数 轴 上 的 积分 ,为 1, 所 以 X 的 方差 为 1。 这 就 是 MX(0,TD) 的 含义 : 
均值 为 0， 方 差 为 1。N(0,1) 称 为 标准 正 态 分 布 ， 其 概率 密度 如 图 5-5 所 示 。 


x2 
[ie zdx=1 (5.44 ) 


Ey Wy 
p(X) = ime” 


+ 和 
-2 2 4 


图 5-5 一 元 标准 正 态 分 布 的 概率 密度 函数 


如 果 X'~N(0,1) , 考察 随机 变量 X = oX' + 1 若 X 落 在 区 间 ( 一 oo,x) 中 , 则 X' 落 在 区 间 (-o%, 乞 
中 ， 于 是 X 落 在 (一 oo0,x) 中 的 概率 是 : 


2 二 
P(X <x)=P(X'< 5) = | ezdu (5.45 ) 


令 v = ou 二 4， 有 du = 2dv。 对 式 (5.45 ) 中 的 积分 做 变量 变换 : 


_w-? 


P(X <x) = fe 202 dy (5.46) 


1 
V270 
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所 以 X 的 概率 密度 函数 是 : 


二 (5.47) 
因为 X = oaX' 十 4， 且 X ~ (0D， 所 以 X 的 期 望 是 ， 
Ex=oExt+u=h (5.48) 
X 的 方差 是 : 
Varx = 0?2varx’ = 0? (5.49) 


称 X 服 从 期 望 为 x， 方差 为 o? 的 正 态 分 布 ， 记 为 XY~N(1,o?)。X 的 概率 密度 如 图 5-6 所 示 。 


p(X) 


562>61 


10:6 


10:5 


40.4 


图 5-6 一 元 正 态 分 布 的 概率 密度 函数 ( 图 中 夯 出 了 两 个 ) 


现在 我 们 从 一 元 正 态 分 布 进入 多 元 正 态 分 布 (multivariate normal distribution )。 假 设 有 nn 个 独 

立 的 一 元 正 态 分 布 Y~N(4,02?) (i= 1…,n )。 以 Xi (i = 1,…,n ) 为 分 量 构 成 n 维 随机 向 量 

和 X = (XI … Xn)7'。 因 为 Xi (i = 1…,n) 独立 ， 所 以 X 的 概率 密度 是 X; (i = 1,…,n ) 的 概率 密 
度 的 乘积 : 

_ Ci) 


1 e 20i2 ed 1 e 
2Trai (2TDm/2|21/2 


_G- 由 IT TIC- 有 


2 (5.50) 


px(X) 二 I Dxi(Xi) = [es 


其 中 , 4 = (4 … Wn)T 是 由 n 个 期 望 组 成 的 向 量 ，z 是 对 角 和 矩阵 ， 对 角 线 元 素 是 n 个 方差 o? 
(i= 2D…,n)。 因 为 XY (i= 1,…,n) 独立 ,它们 两 两 之 间 协 方差 为 0， 所 以 对 角 阵 5 就 是 随机 向 


114 第 5 章 正则 化 


， 所 以 | 下 2? 就 等 于 [Tci。 称 


量 X 的 协 方差 矩阵 。 对 角 阵 2 的 行列 式 | 下 等 于 它 的 对 角 线 元 素 之 积 
分 量 之 间 不 相关 的 二 元 正 态 


X 服 从 期 望 为 n， 协 方差 矩阵 为 3 的 多 元 正 态 分 布 ， 记 为 XY~N (了 3)。 
分 布 的 概率 密度 函数 如 图 5-7 所 示 。 


6? = 1,732, 62 = 1.732 


67 =2.,449, 62 = 1.414 


不 相关 的 二 元 正 态 分 布 的 概率 密度 函数 


图 5-7 分 量 

观察 图 5-7 的 图 形 ， 概 率 密 度 的 峰值 位 置 可 以 通过 期 望 向 量 w 来 调整 ， 概 率 密 度 的 等 高 线 是 
椭圆 ， 它 的 偏心 率 受 控 于 各 个 分 量 的 方差 。 现 在 我 们 旋转 概率 密度 也 数 。 只 旋转 而 不 拉 伸 的 话 ， 
函数 在 了 "上 的 积分 保持 不 变 , 所 以 旋转 之 后 仍 是 一 个 概率 密度 函数 。 将 随机 向 量 X 向 任意 正 交 和 矩 
阵 V 的 行 投 影 ， 得 到 新 的 随机 向 量 X' = VX。 假设 X' 服 从 N (ww, 了 ),， 是 对 角 阵 ， 也 就 是 说 X 经 过 


旋转 后 服从 分 量 不 相关 的 多 元 正 态 分布 ， 则 X 的 概率 密度 是 : 


xvVTp) VT(E) v(x-vTn) 
之 


1 (vp) CD vx-p) 1 
二 CCC 
(2mT™? IVTE'V|1/2 


px (X) = (2 2 
1 _ CTET Tn) 
= GOs 2 (5.51) 
=ViIPV。 和 矩阵 的 行列 式 满足 |4B|=|4|:|B| 以 及 |47|=|14|。 因 为 


其 中 ,p= Vi ， 
IF | 到] = |2'|。 又 因为 VT(2')-1V3 = 


ip [= = =1 ,所 以 下 =1TZIZTVI = 
VTCZ)-IVVYTZT a 


二 J， 所 以 2-1 = VT(8')-1V。X 的 期 望 是 : 


Ex = Eyrx' =ViEx' = Vn = (5.52) 


X 的 协 方差 矩阵 是 : 
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Covx = covyTx' = TYTcovx = ViIZ'V=2 (5.53) 


2 不 一 定 是 对 角 阵 ， 所 以 X 的 各 分 量 之 间 可 能 相关 ， 如 图 5-8 所 示 。 


6 = 1.732，53 =1.732, 协 方差 : 2. 00 63 = 2.449，53 = 1.414, 协 方差 : -1. 20 


图 5-8 ”二 元 正 态 分 布 的 概率 密度 函数 


我 们 称 X 服 从 期 望 是 k， 协 方差 矩阵 是 3 的 多 元 正 态 分 布 ， 记 为 X~N (J 了 )。X 的 概率 密度 隐 
数 是 : 


1 _G-mTz 1x-) 
px(X) 二 [CEE EE (5.54) 


基于 与 (5.51 ) 同样 的 证 明 ， 如 果 X~N(i 玖 且 X =VX+ Ww ,，V 是 正 交 和 矩阵 ， 则 X'~N 
(n+ pw,VEVT), 


5.2 ”模型 自由 度 与 偏 置 -方差 权衡 


模型 的 自由 度 与 模型 参数 的 数量 有 关 ， 也 与 训练 过 程 中 对 参数 变化 的 约束 有 关 。 例如 ， 逻辑 
回归 模型 有 ?个 权 值 和 1 个 偏 置 。 如 果 人 允许 在 了 "+1 空 间 中 自由 地 搜索 最 优 的 w 和 , 则 人 逻辑 回归 模 
型 的 自由 度 就 是 n + 1， 但 如 果 参 数 的 搜索 是 受 限 的 ， 则 自由 度 就 可 能 小 于 n + 1。 


自由 度 控制 模型 的 偏 置 -方差 权衡 。 模 型 的 预测 误差 可 以 分 解 为 数据 本 身 噪 声 的 方差 、 模 型 
预测 的 偏 置 的 平方 ( 注意 , 这 个 偏 置 不 是 指 线性 模型 的 bp, 后 文 会 详解 ) 以 及 模型 预测 的 方差 三 项 ， 
后 两 项 此 消 彼 长 。 正 则 化 控制 模型 自由 度 ， 是 调整 偏 置 -方差 权衡 的 重要 手段 。 弱 正则 化 导致 高 
自由 度 ， 模 型 处 于 低 偏 置 - 高 方差 状态 ; 强 正则 化 导致 低 自由 度 ， 模 型 处 于 高 偏 置 - 低 方差 状态 。 
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5.2.1 最 小 二 乘 线性 回归 
线性 回归 模型 的 计算 式 是 : 


fx) =wix+b (5.55) 


式 (5.55 ) 非常 简单 , 它 是 输入 向 量 x 的 仿 射 函数 。 可 以 将 其 视 为 没有 Logistic 函数 的 逻辑 回 
归 ， 也 可 以 视 为 没有 激活 函数 ， 或 激活 函数 是 恒 等 函数 的 神经 元 ， 如 图 5-9 所 示 。 


X1 SS 
W1 
X2 We w 
Wn 
we b 


图 5-9 将 线性 回归 视 为 单个 神经 元 


与 逻辑 回归 不 同 ， 线 性 回归 的 输出 不 限于 (0 1) 区 间 ， 不 能 视 为 概率 。 线 性 回归 的 输出 是 对 
真实 值 的 预测 。 线 性 回归 的 训练 集 形 如 {xi,y 池 1， 其 中 xi (i = 1…,M ) 都 是 n 维 向 量 ，yi 
(i = 1,…,M ) 是 标量 目标 值 。 线 性 回归 的 目的 是 寻找 最 优 的 w 和 b， 对 新 样本 预测 其 目标 值 。 先 
用 上 一 章 使 用 过 的 技巧 简化 公式 ， 为 输入 添加 一 维 常量 1， 使 输入 向 量 成 为 : 


Xo 三 工 

| 多 ) (5.56 ) 
xn 
wo=b 

-| ey ) (5.57 ) 
wn 


线性 回归 的 计算 式 就 简化 为 f(x) = wIx。 以 M 个 增加 了 一 维 的 样本 为 行 , 构成 M x (n+ 1) 的 
设计 和 矩 阵 X。 以 M 个 目标 值 构成 M 维 向 量 y。 最 小 二 乘 线 性 回归 ,是 指 用 最 小 二 乘法 训练 线性 回归 。 
最 小 二 乘法 的 损失 函数 是 均 方 误差 (mean-square error，MSE ): 


骨 置 2 纳入 权 值 向 量 : 


总 


loss(w) = #7: — wix)? (5.58) 
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均 方 误差 是 训练 集 上 的 目标 值 与 模型 预测 值 误差 平方 的 平均 。 可 以 用 设计 年 阵 X 和 目标 值 向 
量 y 来 表示 均 方 误差 : 
loss(w) = 51y — Xwll? = ly 一 人 (150) 
= Xw 是 由 预测 值 组 成 的 M 维 向 量 。 式 (5.59 ) 表明 : 均 方 误差 正比 于 y 与 9 之 间距 离 的 平 
方 ， 最 小 化 均 方 误差 就 是 最 小 化 了 与 y 之 间 的 距离 。 向 量 Xw 是 X 的 列 的 线性 组 合 ， 属 于 X 的 列 空 


间 。 最 小 化 均 方 误差 就 是 在 X 的 列 空间 中 寻找 与 y 距 离 最 小 的 向 量 ， 即 y 向 X 的 列 空间 的 投影 。 此 
投影 的 系数 w* 称 为 线性 回归 的 最 小 二 乘 解 。 


从 另 一 个 角度 解释 均 方 误差 的 意义 ， 如 果真 实 的 权 值 是 ww， 则 所 有 训练 样本 的 真实 输出 应 该 
是 Xw， 但 由 于 噪声 ， 观 察 到 的 训练 集 目 标 值 是 : 


y=Xw+e (5.60) 


假设 误差 向 量 e 服 从 N(0, 4) ,0 是 M 维 零 向 量 , 4 是 M x M 对 角 阵 ， 对 角 线 元 素 是 c? 。 也 就 是 
说 ,每 个 样本 的 误差 是 独立 同 分 布 的 ， 它 们 都 服从 N(0,o?)。 于 是 随机 向 量 y 服 从 N(Xw, 4)。 真 
实权 值 向 量 为 w 的 前 提 下 ，y 的 概率 密度 是 : 


_ OXw)T(y—Xw) 


POW) = sme 57 (5.61) 


p(yYIw) 是 权 值 为 w 的 前 提 下 ， 观察 到 目标 值 向 量 y 的 似 然 概 率 。 回 顾 式 (5.59 ), 使 loss(w) 最 
小 的 w* 也 使 p(y|w) 最 大 ， 所 以 最 小 二 乘 解 w* 也 是 最 大 似 然 解 。 可 以 用 梯度 下 降 法 或 二 阶 算法 优 
化 均 方 误 差 来 寻找 最 小 二 乘 解 w*， 但 我 们 通过 令 梯 度 为 零 向 量 来 求 此 问题 的 解析 解 。 


Vloss(w) = XT (XW —y) (5.62) 


将 Vloss(w) 置 为 零 向 量 ， 解 得 最 小 二 乘 解 是 : 


ww = (XTX)-1XTy ( 5.63 ) 


式 〈5.63 ) 的 前 提 是 XIX 可 逆 ， 这 要 求 X 的 列 线性 独立 ， 即 训练 集 不 存在 多 重 共 线 性 。 如 果 
线性 独立 ， 则 X 的 列 是 它 的 列 空间 的 一 组 基 。 得 到 最 小 二 乘 解 w* 后 ， 模 型 对 训练 样本 的 预测 是 : 


$= Xw” = X(XTX)-1XTy = Py (5.64) 


P = X(XTX)-1XT 称 为 投影 矩 阵 ( projection matrix ) 或 帽子 矩阵 (hat matrix )， 因 为 它 给 训练 
集 的 目标 向 量 y 带 上 “帽子 ”一 一 了 。 
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5.2.2 ”模型 自由 度 


在 线性 回归 的 框架 下 可 以 给 出 模型 自由 度 ( degree of freedom ) 的 精确 定义 一 一 投影 算 阵 的 秩 。 
w’* 是 使 均 方 误差 最 小 的 权 值 ， 所 以 了 》= Xw* 是 X 的 列 空间 中 与 y 距 离 最 近 的 点 。 观 察 y 与 的 差 : 


XT(y—D) = XYy— XXX) XY) = (XT — XTX(XTX) XT)Y 


= (XT— XT )y=0 (5.65 ) 


其 中 ，y 一 与 X 的 每 一 列 正 交 ， 于 是 它 正 交 于 XX 的 列 空间 ， 所 以 是 y 向 X 的 列 空间 的 投影 。 还 有 
另 一 种 方法 看 出 这 一 点 , 将 X 奇 异 值 分 解 为 UTV。 因 为 XTX 可 逆 ， 所 以 XTX 是 正定 的 。 于 是 XTX 的 
n 十 1 个 特征 值 都 大 于 0， 即 关 有 n + 1 个 奇异 值 。 奇 异 值 分 解 中 的 U 是 M x (n+ 1) 和 矩阵 。U 的 列 是 
两 两 正 交 的 标准 向 量 , 有 UTU = 1,T 是 n + 1 的 对 角 阵 , 对 角 线 元 素 是 X 的 奇异 值 VAI, V22,… ,VAnt1。 
V 是 正 交 甜 阵 。 用 奇异 值 分 解 替换 XxX， 将 式 (5.64 ) 展开 : 


S$= UTVVITIUIUTrV ViITiVUTy = UTVVTIT?V) VITIUTY 


= UFYYTTF-2VVYTPTUTY = Urr™?2riUTy = UUTy (5.66 ) 


式 (5.66 ) 利用 了 Y-1= TVYT，UUT =T，(4B)-1 = B-14-1 以 及 rT = 了。 后 文 还 有 不 少 利用 
奇异 值 分 解 的 计算 ， 都 与 该 式 类 似 ， 届 时 会 简化 推导 过 程 。 式 (5.66 ) 表明 : 了 等 于 先 求 y 在 列 空 
间 标 准 正 交 基 上 的 坐标 ， 再 用 该 坐标 将 标准 正 交 基线 性 组 合 。 所 以 分 是 y 向 X 的 列 空间 的 投影 ， 如 
图 5-10 所 示 。 


图 5-10 ”最 小 二 乘 解 对 训练 集 的 预测 值 是 目标 值 在 设计 敌阵 列 空间 的 投影 
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从 这 个 角度 可 以 看 出 ， 最 小 二 乘 线性 回归 完全 自由 地 在 列 空间 中 寻找 y 的 投影 。 列 空间 
的 维 数 为 n + 1， 最 小 二 乘 解 是 在 n” + 1 个 方向 上 不 受 约束 地 搜索 。 我 们 还 能 看 到 ,投影 矩阵 的 


迹 是 : 


tr(P) = trCXKCXIX)-LIXT) = tr(VUT) =tr(COTODD = tr iT) =7 +1 (5.67) 


投影 矩阵 的 迹 恰 是 na + 1， 所 以 将 最 小 二 乘 线性 回归 的 自由 度 定义 为 投影 矩阵 的 迹 。 如 果 去 
掉 一 个 样本 分 量 ( 去掉 一 个 特征 ), 那么 设计 算 阵 的 形状 将 变 成 M xm ,设计 矩阵 的 列 空间 的 维 数 
也 就 变 成 了 n， 投 影 矩 阵 的 迹 也 成 了 n。 所 以 去 掉 一 个 特征 后 ， 最 小 二 乘 线 性 回归 的 自由 度 就 减 
小 了 1， 从 n 十 1 变 成 了 n。 


如 果 不 是 增 减 特征 , 而 是 给 搜索 施加 某 种 约束 ,自由 度 该 如 何 变 化 呢 ? 约 束 的 强度 应 该 是 连 
续 的 ， 它 对 自由 度 的 影响 不 应 是 跳跃 地 增加 或 减 小 1， 而 应 该 是 连续 的 变化 。 这 能 否 反 映 在 投影 
和 矩阵 的 迹 中 呢 ? 后 文 讲 解 正则 化 ， 并 将 正则 化 应 用 于 线性 回归 后 ， 这 些 问 题 就 都 能 得 到 解释 。 


本 节 在 线性 回归 框架 下 讨论 模型 自由 度 , 并 用 投影 矩阵 的 迹 定义 模型 自由 度 。 在 最 小 二 乘 线 
性 回归 的 情况 下 ,投影 矩阵 的 迹 等 于 最 小 二 乘 解 的 自由 搜索 方向 。 对 于 更 复杂 的 模型 ， 例 如 神经 
网 络 、 决 策 树 等 ， 自 由 度 没有 精确 的 定义 。 最 小 二 乘 线性 回归 的 自由 度 等 于 模型 参数 个 数 。 参 数 
个 数 与 模型 自由 度 有 关 , 参数 越 多 则 自由 度 越 高 。 神 经 网 络 和 深度 学 习 的 参数 远 远 多 于 线性 回归 ， 
所 以 它们 也 具有 大 得 多 的 自由 度 。 除 了 参数 个 数 这 个 因素 , 模型 自由 度 也 与 训练 过 程 所 受到 的 约 
束 等 其 他 因素 有 关 。 


5.2.3 ” 偏 置 -方差 权衡 

和 自由 度 的 概念 一 样 ， 我 们 仍 在 线性 回归 框架 下 讨论 偏 置 -方差 权衡 。 我 们 关心 模型 对 新 样本 
Xnew 的 预测 误差 ， 将 训练 样本 x' (i = 1,…,M ) 视 为 固定 ,将 训练 目标 值 y' (i = 1,…,M ) 视 为 随 
机 , 则 最 小 二 乘 解 w* = (XTX)-1XTy 是 随机 向 量 。 若 真实 的 权 值 向 量 是 w ,假设 M 个 训练 目标 值 是 : 


yi=wixitei, ei~N(0,0°), i=1,.…,M (5.68) 


其 中 ei (i = 1…,M ) 是 独立 同 分 布 的 。 因为 存在 噪声 , 新 样本 xnew 的 观察 值 yew 也 是 随机 变量 ， 

服从 N (wTxnew,0”)。 模 型 对 新 样本 的 预测 值 是 入 ew = (Ww*) xnew。Ynew 的 随机 性 来 源 于 噪声 正 
态 误差 , 和 ew 的 随机 性 来 源 于 训练 集 目标 值 的 噪声 正 态 误差 ,这些 正 态 误差 都 是 独立 的 ,所 以 ywew 
与 各 ew 独立 。 根 据 式 (5.13 )， 误差 平方 的 期 望 是 : 


并 a 四 2 
E((ynew 一 ew)’) = Var(Ynew — hew) + (E (ynew = ew)) (5.69) 
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因为 ywew 与 各 ew 独立 ， 它 们 的 协 方差 为 0， 有 : 


Var(Ynew Dew) Ee Vary ew 和 2COVynewJnew 十 ValI7ynew = 3 Varynew 十 Varynew ( 5.70 ) 
所 以 误差 平方 的 期 望 可 以 拆 解 为 : 
人 2 
E((Ynew 先 ew)”) = Varyi ew + VaI7ynew 十 (Eiw 3 Epow) ( 5.71 ) 


其 中 ，E, 一 Ey 是 新 样本 的 预测 值 与 观察 值 的 期 望 之 差 ， 称 为 偏 置 ( bias ), 观察 值 的 期 望 是 
真实 值 wTxnew。 式 (5.71 ) 的 含义 是 误差 平方 的 期 望 可 以 分 解 为 三 部 分 之 和 : 观察 值 的 方差 、 预 


测 值 的 方差 以 及 偏 置 的 平方 。 式 ( 5.71 ) 不 仅 适 用 于 线性 回归 ， 也 适用 于 任何 回归 模型 。 


varynew 来 自问 题 本 身 ， 无 法 避免 ，varyuew 和 偏 置 产生 于 模型 。 最 小 二 乘 线性 回归 对 新 样本 
的 预测 值 的 期 望 是 ; 


Ey 2 E((xnew) w’) 一 E((xnew) (XTX)-1XTyY) 二 Cnew)TCXIX) -XITEO7) 


三 (Xnew)' (XTX) 1X XWw 二 (Xnew)'w = E 


ynew 


(5.72 ) 


,= Ep.， 所 以 最 小 二 乘 线 性 回归 的 偏 置 为 0， 它 是 无 偏 模型 ， 误 差 全 部 来 自 于 预测 值 


方差 。 最 小 二 乘 线性 回归 的 预测 值 方差 是 : 


Varlyiew = 和 var((Xnew) Ww’) 三 var((Xnew) (XX) XY) 
二 (xnew)ICKTX)-1XT(a2 门 XCCXTX)-I)TXnew 二 Oo?(Xnew)' (XTX) lxnew (5.73 ) 


利用 XTX 的 谱 分 解 可 求 得 (XTX)-1， 并 将 其 代入 式 ( 5.73 ): 


0 
Al 
VaIynew 本 0 (Xnew) (XTX) lxnew 二 | : : je 
0 a 二 
= 2 .|4-V27xaew| (5.74 ) 


其 中 ，4-12 是 对 角 阵 ， 对 角 线 元 素 是 启 (i=1…,n+1)。 如 果 训 练 集 的 各 个 特征 都 已 经 中 
心 化 ， 那 么 X"X 去 挤 第 行 和 第 一 列 后 ， 右 下 角 的 mn x n 子 方 阵 就 是 训练 集 的 样本 协 方差 矩阵 
( 差 一 个 常数 因子 二 )。 根据 式 ( 5.74 )， 模 型 对 新 样本 xnew 的 预测 值 方差 等 于 将 xnew 向 训练 集 
样本 协 方差 矩阵 的 各 个 主 成 分 方向 投影 , 然后 对 各 个 分 量 施 加 惩罚 ,惩罚 因子 是 各 主 成 分 的 标准 
差 的 倒数 - 广 (i= 4.…,n+1) 惩罚 后 的 主 成 分 向 量 的 模 乘 上 问题 固有 方差 cz ， 就 得 到 了 预测 值 
方差 。 
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如 果 新 样本 xnew 比 较 符 合 训练 样本 的 分 布 , 将 它 投影 到 各 个 主 成 分 方向 后 , 它 的 各 分 量 会 受 
到 适当 的 惩罚 ， 从 而 预测 值 方差 较 小 。 但 如 果 xnew 不 太 符 合 训练 样 本 分 布 ， 是 一 个 “ 离 群 点 ”， 
那么 投影 后 它 的 各 分 量 的 相对 大 小 与 各 奇异 值 的 相对 大 小 不 符合 ， 对 各 分 量 的 惩罚 将 会 不 恰当 ， 
导致 预测 值 方差 较 大 ， 如 图 5-11 所 示 。 


离 群 点 
a 


图 5-11 离 群 点 在 各 主 成 分 方向 上 的 投影 与 各 主 成 分 的 方差 不 匹配 
后 文 会 看 到 , 强 正则 化 降低 模型 自由 度 , 减 小 预测 值 方差 而 增 大 偏 置 。 这 种 现象 不 仅 适用 于 
线性 回归 , 也 适用 于 所 有 分 类 和 回归 模型 。 自由 度 控 制 着 偏 置 -方差 权衡 : 如 果 提 高 模型 自由 度 ， 
则 偏 置 减 小 而 方差 增 大 ; 如 果 降低 模型 自由 度 ， 则 偏 置 增 大 而 方差 减 小 。 


低 偏 置 并 非 建 模 追 求 的 唯一 目标 , 因为 虽然 低 偏 置 时 预测 值 的 期 望 接近 真实 值 , 但 如 果 方 差 
过 大 , 每 一 次 预测 的 质量 不 可 控制 。 反 之 , 一 定 程度 牺牲 无 偏 性 而 减 小 方差 .虽然 预测 值 的 期 望 
有 偏 ， 但 是 方差 小 ， 多 次 预测 整体 的 质量 可 能 会 更 好 ， 如 图 5-12 所 示 。 
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低 偏 置 -高 方差 高 偏 置 - 低 方差 


京 实 什 


图 5-12 偏 置 与 方差 对 预测 的 影响 
更 何况 一 般 建 模 场景 中 对 真实 分 布 一 无 所 知 ， 这 时 选择 某 种 模型 ( 例如 线性 回归 ) 只 是 出 于 
对 数据 真实 分 布 的 先 验 的 假设 。 过 分 追求 低 偏 置 ， 迫 使 模型 无 偏 于 假设 的 真实 值 期 望 ， 有 可 能 
致 过 拟 合 。 后 文 会 讲解 过 拟 合 与 从 拟 合 。 


5.3 正则 化 


本 节 在 线性 回归 框架 下 介绍 £, 正 则 化 ( £, regularization )， 并 从 训练 集 样本 协 方 差 矩 阵 的 主 
成 分 方向 和 贝 叶 斯 先 验 概率 两 种 视角 曾 述 ;正则 化 的 含义 。 之 后 我 们 简单 介绍 £j 正 则 化 , 并 比较 
[和 £5 正则 化 的 异同 以 及 差异 的 原因 。 


5.3.1 ”上 岭 回归 与 ,正则 化 


求 线性 回归 最 小 二 乘 解 w* 要 求 XTX 可 逆 ， 当 XX 的 列 线性 相关 时 ， 这 种 可 北 性 不 满足 ， 但 我 们 
可 以 修正 XIX: 
XIX+AI (5.75) 
将 XTX 谱 分 解 ， 有 : 
A + » 0 


XIX+AT=VIAV+AVIV =Vi(A + ADV = 人 
0 … Atl1+1 
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根据 式 (5.76 ), 有 (XIX+MDVT = VT(4 二 4D ,所 以 下 +X40=1 7 十 1 ) 是 (XTX+ 4D) 的 
7! 二 1 个 (可 重 ) 特 征 值 , 正 交 矩阵 8 的 列 是 对 应 的 特征 向 量 。 只 要 4 足够 大 , 就 可 以 使 XTX 十 A 的 
寺 征 值 都 大 于 0， 从 而 可 逆 。 用 XTX + 17 替 换 XTX， 代 入 式 (5.63 )， 得 到 : 


wridge = (XTX 十 4 站 -1XTy ( $5.77 ) 


以 wridge 为 线性 回归 的 解 ， 称 作 岭 回归 (ridge regression )。“ 岭 ”是 指 矩 阵 XTX + A 的 对 角 
线 一 一 山脊 。 我 们 知道 最 小 二 乘 解 w* 最 小 化 均 方 误差 , 那么 岭 回归 的 解 wr 是否 也 是 某 个 损失 
函数 的 最 优 解 呢 ? 请 看 损失 函数 : 


lossrageGw) = ly — Xwll? + lwll? (5.78) 


其 中 4 > 0, 称 为 正则 化 强度 (regularization strength )。 式 ( 5.78 ) 为 均 方 误差 加 上 了 一 项 wl]? ， 
它 称 为 上 正则 项 ， 它 是 权 值 问 量 w 的 长 度 平 方 的 常数 倍 。 


加 入 £2 正则 项 后 , 损失 函数 除了 惩罚 预测 误差 还 惩罚 权 值 向 量 的 长 度 , 最 优 解 需要 兼顾 这 两 
种 惩罚 。 可 以 想象 , 优化 算法 将 无 法 在 X 的 列 空间 中 自由 地 寻找 y 的 投影 ,这 种 约束 就 像 一 个 “ 力 ”， 
将 优化 算法 的 解 拉 向 原点 。“ 力 ”的 大 小 受挫 于 4 和 解 与 原点 距离 的 平方 ，4 越 大 ， 则 上 正则 项 在 
损失 函数 中 占 的 比重 越 大 ， 将 解 拉 向 原点 的 “ 力 ” 越 强 。 损 失 函 数 ( 5.78 ) 的 梯度 是 : 


Vlossridge(w) = 二 XTCXKw 一 ) 十 Fw 和 (XTX + ADw 一 XTy (5.79) 


令 梯 度 为 零 向 量 , 求 得 的 解 正 是 w"id8e 。 所 以 岭 回 归 的 解 就 是 带 £5 正 则 项 的 均 方 误差 损失 函 
数 的 最 优 解 。 


虽然 增高 XYX 的 “上 岭 ” 是 为 了 克服 训练 集 的 多 重 共 线 性 , 但 £2 正则 化 已 经 不 仅仅 是 为 了 这 个 
目的 , £2 正则 化 是 对 自由 度 的 控制 。 下 面 考察 正则 化 对 自由 度 的 影响 , 为 了 与 最 小 二 乘 线性 回归 
比较 ， 以 下 假设 X 的 列 线 性 独立 ， 即 X 有 n + 1 个 奇异 值 。 岭 回归 的 投影 矩阵 是 ; 


Pridge ~ X(XTX + A1)-1XT ( 5.80) 
利用 X 的 奇异 值 分 解 X = UFVT， 将 Pridge 写 为 : 


Pridge = UTVVITTIUTUTV + AVTV)-IVITTUT = UTOTTT + 4D-TTUT 


A. 
A 0 

=U| : ~. : UT (5.81 ) 
0 i An+t1 
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式 (5.81 ) 表明 : 岭 回 归 的 投影 矩阵 将 目标 值 向 量 y 向 设计 和 矩阵 列 空间 的 标准 正 交 基 投 影 ， 
之 后 压缩 每 个 分 量 , 所 以 岭 回归 的 预测 值 向 量 偏向 原点 ， 而 不 再 是 目标 值 的 垂直 投影 。 根 据 自 
度 的 定义 ， 怜 回归 的 自由 度 是 投影 矩阵 的 迹 ， 因 为 tr(4B) = tr(B4) ， 于 是 有 : 


A 0 | 
, AI+4 天 
tr(Pridge) =tr| UrU| : *% : = <nt+l (5.82) 
Ant+1 
0 ”Mri 


£2 正则 项 使 岭 回 妇 的 自由 度 小 于 n + 1。 正则 化 强度 4 控制 模型 自由 度 ，4 = 0 时 就 是 最 小 二 
乘 线性 回归 ， 自 由 度 为 n + 1，4 趋 近 于 正 无 穷 则 自由 度 趋 近 于 0。 设 想 若 真有 无 穷 大 的 正则 化 强 
度 ， 则 wr"idse 只 能 是 零 向 量 ， 否则 一 旦 它 有 非 0 的 长 度 ， 则 损失 函数 马上 变 成 正 无 穷 。 


以 投影 矩阵 的 迹 为 自由 度 无 非 是 一 个 定义 ， 重 要 的 是 它 的 含义 。 就 像 电影 “ 黑 客 帝 国 ” 中 印 
度 程序 人 所 说 : Love is a word. What matters is the connection the word implies.( 爱 只 是 一 个 词 ， 


要 的 是 它 的 含义 )， 我 们 来 看 2 正则 化 对 偏 置 和 方差 的 影响 。 岭 回归 对 新 样本 xnew 的 预测 值 是 : 


ew = (Xnew) (XTX+ AT) 1XTY (5.83 ) 


如 果真 实权 值 向 量 是 w， 则 入 ew 的 期 望 是 : 


Rs 


ynew 


= (Xnew) (XX + AD- IXTE, = (Xnew) (XTX+AD IXTXW (5.84) 


新 样本 观察 值 ywew 的 期 望 是 (xwew)"w。 再 次 利用 奇异 值 分 解 : 


Eyiew Poew 三 (xnew)Tw (xnew) VTTIT 十 1D-IFTIF7w 
元 i 0 
=(Vxnew) | : “% :vw ( 5.85 ) 
0 4 
Ant1lrAa 
4 为 0 时 ， Ey 一 Ep。 = 0， 模型 无 偏 ，4 越 大 则 偏 置 越 大 ， 即 强 正则 化 降低 模型 自由 度 而 


增 大 偶 置 。 接 下 来 再 看 方差 ， 利 用 谱 分 解 求 得 加 ew 的 方差 是 : 


= og2(Xnew)T XTX + AD-IXTXCXTX 十 2 站 -1xnew 


Vary ew 
4 0 
(COa+ 
= o2(Vxnew)! : : Vxnew (5.86) 
0 An+t1 


(An+144)” 
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4 为 0 时 ,上 岭 回 归 退 化 成 最 小 二 乘 线 性 回归 ， 随 着 4 增 大 ， 式 (5.86 ) 中 对 角 阵 的 对 角 线 元 素 
减 小 ， 导 致 varyew 减 小 。 当 4 趋 近 于 正 无 穷 varpnew 趋 近 于 0。 


Y 的 行 是 训练 集 样本 协 方差 矩阵 的 主 成 分 方向 ， 样 本 在 第 一 个 主 成 分 方向 上 的 分 量 有 最 大 的 
样本 方差 寻 ,在 第 二 个 主 成 分 方向 上 的 分 量 有 次 大 的 样本 方差 只 ,以 此 类 推 , 式 ( 5.86 ) 将 xnew 向 各 
主 成 分 方向 投影 ， 然 后 对 每 个 投影 分 量 施 以 惩罚 。 惩 罚 因 子 分 母 上 的 4 使 方差 更 小 ， 大 方差 方向 
受到 的 惩罚 相对 较 小 ,小 方差 方向 受到 的 惩罚 相对 较 大 。 方 差 小 的 方向 可 以 视 作 噪声 ,， 强 正则 化 
加 重 了 对 噪声 的 惩罚 。 


小 结 一 下 ， 当 采用 均 方 误差 作为 损失 函数 时 ,线性 回归 算法 称 为 最 小 二 乘 线性 回归 。 给 均 方 
误差 加 上 2 正则 项 就 成 为 岭 回归 。 最 小 二 乘 线性 回归 的 自由 度 是 特征 数 加 1， 它 的 预测 无 偏 , 但 
方差 较 大 。£; 正 则 化 越 强 ， 则 岭 回 归 的 自由 度 越 低 , 预测 的 偏 置 较 大 , 但 方差 较 小 。 正 则 化 强度 
控制 模型 自由 度 ， 进 行 偏 置 -方差 权衡 。 


5.3.2 £, 正 则 化 的 贝 叶 斯 视角 


权 值 向 量 为 w 时 , 训练 集 的 目标 值 服从 式 ( 5.68 ) 的 独立 正 态 分 布 , 所 以 训练 集 目标 值 向 量 y 服 
从 NVN(Xw,o?1)。 视 训练 样本 X 非 随机 ， 当 权 值 向 量 为 w 时 ， 训 练 集 目标 值 向 量 y 的 似 然 概 率 是 : 


_ OXw)T(y—Xw) 


pOW) = sme 7 (5.87) 


最 大 化 似 然 概率 等 价 于 最 大 化 它 的 对 数 : 


_ OXWwW) TO-Xw) _ 
202 = 


logp(y|w) = 一 log(2no?) 一 21og(2ro2) 一 去 ly 一 分 上 (5.88) 


对 比 式 (5.88 ) 和 式 (5.59 )， 可 发 现 最 大 化 对 数 似 然 概率 等 价 于 最 小 化 均 方 误差 ,它们 都 是 
最 小 化 训练 集 目标 值 与 预测 值 之 间距 离 的 平方 ly - 9。 在 贝 叶 斯 框 如 下 ,真正 想 要 最 大 化 的 并 


不 是 似 然 概率 ， 而 是 后 验 概率 p(w|y): 
_ POIWp(wW) 
pw 一 一 oo 〈5.89 ) 
最 大 化 p(wl|y) 等 价 于 最 大 化 它 的 对 数 : 
logp(wly) = log (ee) = logp(ylw) + logp(w) — logp(y) ( 5.90) 


假设 权 值 向 量 w 的 先 验 分 布 是 N(0, 字 1))， 所 以 w 的 概率 密度 是 : 
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p(w) = Ee (5.91) 
3) 
后 验 概率 的 对 数 是 : 
logp(wly) = -logC2ro3 — 去]y 一 9 一 时 tlog3 一 华 光 -logp(y) 
=—25 (ty -Pl +2 lwl?)+C (5.92 ) 
其 中 , C = 一 之 10g(2ra3) 加 log 一 logp(y)， 与 w 无 关 。logp(wly) 括 号 中 的 部 分 正 是 式 


( 5.78 )， 即 带 £L2 正 则 项 的 均 方 误差 损失 函数 。 也 就 是 说 ， 最 小 化 带 £L 正 则 项 的 均 方 误差 等 价 于 
最 大 化 后 验 概率 p(w|y)。w 的 先 验 分 布 是 N(0, 字 1)， 正 则 化 强度 4 反比 于 w 各 分 量 的 方差 ，4 越 
大 则 权 值 的 先 验方 差 越 小 ， 其 先 验 分 布 更 集中 于 0 附近 。 这 种 先 验 信念 会 导致 最 大 后 验 解 更 靠 
近 原 点 。 


5.3.3 正则 化 


£2 正则 化 之 所 以 称 为 2， 是 因为 它 惩罚 权 值 向 量 w 的 2- 范 数 的 平方 ; lwl?。 忆 正则 项 可 以 
写成: 


分 |hwllz = SF w? (5.93 ) 


而 三 正则 项 是 权 值 向 量 w 的 1- 范 数 : 


Fwil (5.94 ) 


三 正则 化 和 £5; 正则 化 都 对 权 值 分 量 的 大 小 做 惩罚 , 只 不 过 一 个 惩罚 的 是 绝对 值 而 另 一 个 惩罚 
的 是 平方 。 这 个 区 别 会 导致 一 个 有 趣 的 效果 : £1 正则 化 倾向 于 使 部 分 权 值 为 0。 图 5-13 展示 了 带 
[或 ;正则 项 的 二 次 函数 的 等 高 线 图 以 及 全 局 最 小 点 。 


带 C, 正 则 项 的 三 次 函数 带 6? 昨 则 项 的 一 次 函 孝 

十 0.8 0.8 
十 0.7 站 +o7 

中 os | 十 06 

二 | 十 os 

吕 | bg 
| 0.4 | | 时 
| 0.3 | yA hi 
此 | 下 小 上 
2 sp :9 2 | 4 
J PR 十 01 


~ ~ 一 EF 
夺 局 最 术 训 : (0:12,0.40)7 pA 1.25 


图 5-13 带 £L1 或 ;正则 项 的 二 次 函数 的 等 高 线 图 和 全 局 最 小 点 


函数 的 等 高 线 垂直 于 梯度 ， 函 数 治 等 高 线 切 线 的 方向 导数 为 0。 如果 正 则 项 在 某 一 点 的 梯度 
与 损失 函数 的 梯度 共 线 , 说 明 损失 函数 的 梯度 垂直 于 正则 项 等 高 线 , 损失 函数 值 沿 着 正则 项 等 高 
线 不 变化 。 若 在 某 点 处 ,正则 项 的 梯度 与 损失 函数 的 梯度 不 共 线 ， 则 损失 函数 的 梯度 与 正则 项 的 
等 高 线 不 垂直 ,损失 函数 沿 正则 项 等 高 线 的 方向 导数 不 为 0， 于 是 沿 正则 项 等 高 线 运动 可 以 使 损 
失 函 数 下 降 。 


£2 正则 项 的 等 高 线 是 圆 , 沿 L2 正 则 项 的 等 高 线 运动 时 ,其 梯度 扫 过 360 度 , 很 有 可 能 在 某 点 
上 与 损失 函数 的 梯度 共 线 。 而 Li 正则 项 的 等 高 线 是 四 边 形 , 在 同一 边 上 的 梯度 相同 。 该 梯度 与 损 
失 函 数 的 梯度 共 线 的 概率 较 低 , 于 是 沿 着 £1 正则 项 的 等 高 线 运 动 时 , 大 概率 可 以 保持 正则 项 不 变 
而 降低 损失 函数 值 , 所 以 优化 算法 不 大 可 能 停留 在 Li 正则 项 等 高 线 的 边 上 , 而 更 有 可 能 停留 在 其 
顶点 ， 这 就 是 £1 正则 化 很 有 可 能 导致 部 分 权 值 为 0 的 原因 。 


5.4 过 拟 合 与 欠 拟 合 

数据 的 真实 分 布 是 未 知 的 , 我 们 拥有 的 是 从 真实 分 布 中 采样 的 训练 集 ， 而 不 知道 真实 分 布 的 
形式 。 例 如 同一 个 样本 集 ， 既 可 以 认为 它 采 样 自 单一 正 态 分 布 , 也 可 以 认为 它 采 样 自 混合 的 正 态 
分 布 ， 如 图 5-14 所 示 。 
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| 混合 正 态 分 布 


图 5-14 ”同一 个 样本 集 可 能 采样 自 两 种 不 同 分 布 


当真 实 分 布 的 形式 未 知 时 ,我 们 需要 做 先 验 的 假设 .例如 ,线性 模型 只 能 产生 超 平面 分 界面 ， 
采用 线性 模型 就 是 假设 真实 的 两 类 数据 是 线性 可 分 的 。 如 果 假 设 真实 数据 不 是 线性 可 分 的 , 则 可 
以 采用 非 线性 模型 ， 如 图 5-15 所 示 。 


线性 模型 “ 非 线性 模型 


4 


| 。 第 1 类 样本 
| 。 第 2 类 样本 


图 5-15 不 同 的 先 验 假设 采用 不 同 的 模型 
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有 了 时 即便 知道 真实 数据 线性 不 可 分 , 但 仍 采 用 线性 模型 ， 因 为 真实 分 布 可 能 非常 复杂 , 并 且 
我 们 对 其 一 无 所 知 ， 这 时 无 法 做 出 恰当 的 先 验 假设 。 同 时 训练 样本 可 能 很 稀少 , 一 旦 模型 过 于 复 
困 , 则 很 可 能 学 习 不 到 数据 的 真实 分 布 。 这 种 情况 下 采用 简单 的 线性 模型 反倒 能 得 到 更 好 的 效果 ， 
如 图 5-16 所 示 。 


过 于 复杂 的 模型 


图 5-16 分 布 复 杂 而 训练 样本 稀少 
图 5-16 右 侧 对 数据 的 真实 分 布 做 了 过 于 复杂 的 假设 , 采用 自由 度 过 高 的 模型 ， 导 致 预测 新 
样本 时 表现 差 ， 这 种 情况 称 为 过 拟 合 (over-fitting )。 但 是 如 果 先 验 假设 过 于 简单 ,， 采用 自由 度 过 
低 的 模型 ， 也 会 因为 学 习 不 到 数据 的 真实 分 布 而 导致 预测 效果 差 ， 这 种 情况 称 为 从 拟 合 
(under-fitting )。 


模型 种 类 、 参 数 规模 、 正 则 化 方法 及 强度 等 因素 都 影响 模型 的 自由 度 。 高 自由 度 导致 低 偏 置 
高 方差 , 但 由 于 数据 的 真实 分 布 未 知 ,无 偏 于 一 个 假设 的 期 望 并 不 一 定 就 好 。 低 自由 度 降低 方差 
而 增 大 偏 置 ， 偏 离 假设 的 期 望 不 一 定 就 坏 。 


第 2 章 提 到 应 该 在 独立 的 测试 集 上 评价 模型 ,是 因为 如 果 我 们 做 了 不 恰当 的 先 验 假设 , 并 选 
用 了 高 自由 度 的 模型 ,那么 模型 偏 置 小 会 导致 过 拟 合 , 这 时 训练 集 上 的 指标 会 过 于 乐观 , 可 是 在 
独立 的 测试 集 上 的 指标 就 会 很 差 .从 而 暴露 过 拟 合 现象 。 训练 集 和 测试 集 上 的 评价 指标 随 模 型 自 
由 度 变 化 的 典型 情形 如 图 5-17 所 示 。 
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1.10 


过 拟 合 


Accuracy 


一 训练 集 准确 率 | 


----， 测 试 集 准确 率 
0.75 - L 上 上 | 1 
5 10 15 20 25 30 35 40 
自由 度 低 : 高 偏 置 / 低 方差 自由 度 高 ， 低 偏 置 /高 方差 


图 5-17 训练 集 和 测试 集 的 正确 率 随 模型 自由 度 的 变化 


模型 调 优 的 通常 做 法 是 : 首先 , 将 带 标 签 的 样本 分 成 训练 集 、 验 证 集 和 测试 集 。 通过 调整 各 
种 超 参 数 , 控制 自由 度 从 低 到 高 变化 , 在 训练 集 上 多 次 训练 模型 。 同 时 监控 训练 集 和 验证 集 上 的 
评价 指标 ,在 欠 拟 合 和 过 拟 合 之 间 寻 找 最 佳 自 由 度 。 注意 , 验证 集 不 参与 训练 ， 只 用 来 监控 偏 置 - 
方差 权衡 。 找 到 合适 的 自由 度 , 并 用 这 套 超 参数 在 训练 集 上 训练 模型 后 ,在 测试 集 上 评价 该 模型 。 
测试 集 不 参与 模型 训练 和 选择 ， 在 它 之 上 获得 的 评价 指标 是 客观 的 。 


5.5 ”运用 £5 正则 化 训练 逻辑 回归 


训练 集 是 $ = {xi,y 站 1， 给 训练 样本 xi (i = 1,…,M ) 增加 一 维 常量 1， 从 而 将 偏 置 p 纳 入 权 
值 向 量 w。yi (i = 1,…,M ) 是 10 编码 的 类 别 标签 。 带 2 正则 项 的 交叉 录 损失 函数 是 : 


T 
loss(w) = -PI 人 log— + (1—y’') log 一 5) 十 2 (5.95 ) 


1+e—wix: 1+ewlxt 


我 们 将 训练 样本 视 为 非 随机 ， 只 将 训练 标签 视 为 随机 ， 根 据 式 〈2.25 )，loss(w) 的 第 一 项 是 
-logp(SIw), 它 与 训练 集 $ 的 对 数 似 然 概率 的 相反 数 成 正比 。 观 察 到 训练 集 $ 的 前 提 下 ， 权 值 
是 w 的 对 数 后 验 概率 是 : 


logp(w|S) = logp(S|Iw) +logp(w) 一 logp(9) (5.96) 


假设 w 的 先 验 分 布 是 N(0, (1/2X) 站 ， 则 w 的 概率 密度 是 : 


1 = wT 
PU /rz e i (5.97 ) 
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于 是 对 数 后 验 概率 是 : 


logp(wl|S) = wn log wr i +(1—y ) log- rt) 一 Awiw+C (5.98) 


C 是 与 w 无 关 的 常数 。 结 合式 (5.95 )， 最 大 化 logp(w15) 就 是 最 小 化 loss(w)。 梯 度 下 降 法 需 
要 计算 loss(w) 对 w 的 梯度 ,也 就 需要 计算 loss(w) 对 w 每 个 分 量 的 偏 导数 ,loss(w) 是 交叉 炉 和 £, 下 
则 项 之 和 ， 它 对 wj 的 偏 导 数 也 是 这 两 项 对 wj 的 偏 导 数 之 和 : 


AwTw mi+I ,2 
1 =) a (5.99 ) 
根据 式 (3.36 ) 有 : 
a (10gPCSIW)) = -#2 (yp'(w)) Sa 


其 中 ，pi(w) 是 逻辑 回归 对 第 i 个 训练 样本 的 预测 概率 : 


i _ 1 
Pp (W) = Ti (5.101 ) 
所 以 loss(w) 的 梯度 是 : 
X68 
Vloss(w) = -FE (y: pi(w)) 十 Pw ( 5.102) 
2X 
于 是 ， 带 £, 正 则 化 的 逻辑 回归 训练 的 伪 代 码 如 下 : 
Ww? 二 随机 初始 化 
to0 
while ||lVloss(w)||= e: 
Ww oc w+n: 6 3 1(y: sD oa 全- 
toti+l 
return WwW 
可 以 将 算法 的 更 新 式 写 成 : 
X6 
Witl 二 (1- Ew 上 十 卫 > i ee pi(w®)) 有 ( 5.103 ) 


Xn 
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从 式 (5.103 ) 看 出 更 新 式 先 对 ww 进行 压缩 ， 压 缩 因子 是 (1 - 开 )， 这 就 是 C2 正则 化 将 权 
值 拉 向 原点 的 原因 。 


5.6 运用 £2 正则 化 训练 逻辑 回归 的 Python 实现 


本 节 , 我 们 为 第 3 章 实 现 的 逻辑 回归 模型 添加 正则 化 。 我们 实现 £1 和 £2 两 种 正则 化 ,正则 化 
方法 和 正则 化 强度 作为 构造 函数 的 参数 ， 代 码 如 下 : 


from optimizer import * 
import numpy as np 


class LogisticRegression reg: 
def init (self, optimizer, iterations = 50000, regularization = "12", reg lambda = 0.01): 
assert(optimizer is not None) 


self.optimizer = optimizer 

self.iterations = iterations # 壕 代 次 数 
self.regularization = regularization # 正则 化 方法 
self.reg lambda = reg lambda # 正则 化 强度 系数 


def train(self, x, y): 


mn 


X 为 和 矩阵， 形状 是 mn_ samples * n_ features， 每 一 行为 一 个 样本 
y 为 和 矩阵， 形状 是 m_samples * 1， 元 素 为 样本 的 标签 ， 正 类 为 1， 负 类 为 0 


mn 


# 在 X 最 前 面 添加 一 列 常 数 1， 作 为 偏 置 值 的 输入 ， 以 简化 公式 
x= np.mat(np.c [[1.0] * x.shape[0], x]) 


# 根据 X 的 列 数 ( 特 征 数 ) 随机 初始 化 权 值 ， 此 时 偏 置 值 纳 入 了 权 值 向 量 ， 相 当 于 第 一 个 权 值 
# 权 值 向 量 为 n_features + 1 维 向 量 ， 每 个 分 量 以 0 均值 、0.01 标准 差 的 正 态 分 布 初始 化 
self.weights = np.mat(np.random.normal(0, 0.01, size=x.shape[1])).T 


for i in range(self.iterations): 


# 计算 当前 模型 对 训练 集 样本 的 输出 
p = self.predict(x, False) 


gradient = -x.T * (y - p) / x.shape[0] # 交叉 粒 损 失 对 模型 参数 的 梯度 
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# 正则 项 的 的 梯度 
if self.regularization == "12": 

gradient += 2 * self.reg lambda * self.weights / x.shape[0] 
elif self.regularization == "11": 

gradient += self.reg lambda * np.sign(self.weights) / x.shape[0] 


self.weights += self.optimizer.delta(gradient) # 更 新 模型 参数 


# 评估 当前 模型 并 打印 训练 信息 
if i % 100 == 0: 
# 交 又 炳 损失 
cross entropy = (-y.T * np.log(p) - (1.0 - y).T * np.log(1 - p)) / y.shape[o0] 


# 正确 率 
accuracy = np.sum(((p > 0.5).astype(np.int) == y). 
astype(np.int)) / y.shape[0] 


print(" 迭 代 : {:d}， 交 又 炳 : {:.6f}， 正 确 率 : {:.2f}%".format( 
i + 1, cross entropy[0, 0], accuracy * 100)) 


def predict(self, x, augment = True): 
预测 函数 。X 为 和 矩阵， 形状 是 mn_samples * n_features， 每 一 行为 一 个 样本 
augment 参数 指示 是 否 要 在 特征 矩阵 前 添加 一 列 常量 1 
# 在 X 最 前 面 添加 一 列 常数 1， 作 为 偏 置 值 的 输入 
if augment: 
x= np.mat(np.c [[1.0] * x.shape[0], x]) 


a = -np.matmul(x, self.weights) 
a[a > 1e2] = 1e2 # 防止 数值 过 大 
p=1.0/ (1.0 + np.power(np.e, a)) 


# 剪裁 概 率 值 ， 保 证 其 为 合法 的 概率 值 
p[p >= 1.0] = 1.0 - 1e-10 


plp <= 0.0] = 1e-10 


return p 


新 添 的 代码 段 根据 不 同 的 正则 化 方法 , 将 正则 项 的 梯度 加 到 交叉 炉 的 梯度 之 上 。 对 于 忆 正 则 
项 , 求 偏 导数 时 , 若 参 数 为 正 , 则 取 1; 若 参 数 为 负 , 则 取 -1, 再 乘 上 正则 化 强度 并 除 以 样本 个 数 。 
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# 正则 项 的 梯度 
if self.regularization == "12": 
gradient += 2 * self.reg lambda * self.weights / x.shape[0] 
elif self.regularization == "11": 
gradient += self.reg lambda * np.sign(self.weights) / x.shape[0] 


接 下 来 , 我 们 使 用 带 正则 项 的 逻辑 回归 建 模 乌 类 生态 类 群 问题 。 读者 可 自行 调节 正则 化 方法 
和 强度 ， 观 察 它们 对 模型 参数 以 及 模型 效果 的 影响 。 


import pandas as pd 

import numpy as np 

from optimizer import * 

from lr reg import LogisticRegression reg 

from sklearn.metrics import accuracy score, precision score, recall score, roc auc score 


bird = pd.read csv("bird.csv").dropna().drop("id", axis=1) 


# 根据 标签 是 否 属于 "SW"，"W"，"R" 三 类 ， 构 造 二 分 类 1/0 标签 
bird["type"] = bird.type.apply(lambda t: t in ["SW", "W", "R"]).astype(np.int) 


data = bird.values 
# 将 样本 随机 洗 牌 
np.random.shuffle(data) 


# 前 300 个 样本 作为 训练 集 
train x = np.mat(data[:300,:-1]) 
train y = np.mat(data[:300,-1]).T 


# 其 余 样本 作为 测试 集 
test x = np.mat(data[300:,:-1]) 
test y = np.mat(data[300:,-1]).T 


# 构造 逻辑 回归 对 象 ， 优 化 器 为 原始 梯度 下 降 ， 学 习 率 0.01, 使 用 12 正则 化 ,正则 化 强度 0.01 
lr = LogisticRegression reg(Gradient(0.01), regularization = "12", reg lambda = 0.01) 


# 在 训练 集 上 训练 


lr.train(train x, train y) 


# 对 测试 集 进行 预测 
p = lr.predict(test x) # 模型 预测 的 正 类 概率 
pred = (P > 0.5).astype(np.int) # 以 0.5 为 阅 值 时 ， 模 型 预测 的 类 别 


print( "正确 率 : {:.2f}%， 查 准 率 : {:.2f}%， 查 全 率 : {:.2f}%，ROC 曲线 下 面积 : {:.3f}".format( 
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accuracy_score(test y, pred) * 100, 
precision score(test y, pred) * 100， 
recall score(test y, pred) * 100， 
roc auc score(test y.A, p))) 


5.7 小结 


通过 本 章 ， 读 者 应 该 对 模型 自由 度 、 偏 置 -方差 权衡 、 正 则 化 、 过 拟 合 与 欠 拟 合 等 概念 有 了 
较 深 刻 的 理解 。 除 本 书 涉及 的 线性 回归 、 人 逻辑 回归 、 神 经 网 络 和 深度 学 习 外 ,这些 概念 可 应 用 到 
机 器 学 习 领 域 的 其 他 众多 模型 。 在 那些 模型 中 , 这 些 概 念 可 能 没有 精确 的 数学 定义 , 但 是 原理 仍 
然 是 共通 的 。 例 如 决策 树 模 型 ， 树 的 最 大 深度 是 一 个 超 参数 。 若 最 大 深度 较 大 ， 则 决策 树 的 自由 
度 高 、 偶 置 较 低 而 方差 较 高 ， 易 发 生 过 拟 合 ; 若 最 大 深度 较 小 , 则 决策 树 的 自由 度 低 、 侦 置 较 高 
而 方差 较 低 ， 易 发 生 从 拟 合 。 


除 正 则 化 强度 外 , 各 类 模型 和 训练 算法 还 有 数量 众多 的 超 参 数 ， 另 外 , 模型 的 自由 度 还 受 很 国 国 
多 隐 含 因素 的 影响 。 熟 悉 各 种 超 参 数 ， 理 解 它 们 对 自由 度 的 作用 ， 并 能 够 调节 它们 控制 自由 度 ， 
是 机 器 学 习 工 程 师 的 基本 素养 。 
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神经 网 络 


申 经 元 对 输入 向 量 施加 仿 射 函数 和 激活 函数 , 它 的 输出 只 能 沿 着 权 值 向 量 的 方向 变化 , 所 以 
神经 元 只 能 形成 垂直 于 权 值 向 量 的 超 平面 分 界面 。 逻 辑 回 归 模 型 就 是 一 个 神经 元 。 神 经 元 (线性 
模型 ) 的 结构 、 特 性 和 训练 是 本 书 第 一 部 分 的 内 容 。 


je 


从 本 章 开 始 , 我们 进入 神经 网 络 领 域 。 神经 网 络 ( neural network ) 把 多 个 神经 元 连接 成 网 络 。 
所 谓 “ 连 接 "， 就 是 把 一 个 神经 元 的 输出 当 作 男 一 些 神 经 元 的 输入 。 连 接 方 式 众多 ， 本 童 只 介绍 
最 简单 的 一 种 : 多 层 全 连接 神经 网 络 。 


将 多 个 神经 元 连接 成 网 络 能 产生 非 线性 分 界 能 力 , 这 种 能 力 来 自 神经 元 之 间 的 合作 和 非 线性 
的 激活 函数 。 除 了 ( 逻辑 回归 的 ) Logistic 函数 ， 还 有 其 他 很 多 种 激活 函数 。 本 章 介绍 最 常用 、 
最 具 代表 性 的 几 种 激活 函数 以 及 它们 的 性 质 。 最 后 ,本 章 由 多 分 类 问题 引入 SoftMax 函数 ， 它 将 
神经 网 络 的 多 个 输出 转化 为 多 分 类 概率 分 布 。 


6.1 合作 的 神经 元 


令 逻 辑 回 归 的 权 值 向 量 和 偏 置 是 w 和 b， 它 先 对 输入 向 量 x 施加 仿 射 函数 wTx +b， 再 施加 
Logistic 函数 ， 以 Logistic 函数 的 输出 为 正 类 的 概率 。 因 为 Logistic 函数 单调 递增 ， 所 以 逻辑 回归 
其 实 是 根据 仿 射 函数 值 wIx + 5 的 大 小 来 预测 类 别 的 。 仿 射 函 数 的 等 值 面 是 垂直 于 权 值 向 量 w 的 
超 平面 ,所 以 逻辑 回归 具有 超 平 面 分 界面 ,如 果 以 0.5 为 概率 浆 值 ,那么 分 界面 就 是 wIx+zD = 0。 
这 个 分 界面 的 法 向 量 是 w， 不 同 w 的 逻辑 回归 模型 如 图 6-1 所 示 。 
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单位 权 值 向 量 : w=(0.41, 0.91)T 单位 权 值 向 量 : w = (0.95， 0.32)T 


图 6-1 不 同 权 值 向 量 的 逻辑 回归 模型 


现在 我 们 把 多 个 逻辑 回归 模型 相 加 ， 构 造 一 个 复合 模型 : 


1 


we 
1+e-b'-(w!) x 


f (x) = 从 了 


可 以 用 神经 元 示意 图 表示 该 复合 模型 。 当 x 是 2 维 , 上 = 3 时 ， 如 图 6-2 所 示 。 


X1 


X2 


图 6-2 多 个 逻辑 回归 之 和 
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以 k 个 逻辑 回归 模型 的 权 值 向 量 作为 行 ， 构 造 k x n 的 权 值 矩阵 WW， 以 k 个 偏 置 为 分 量 构 造 偏 
置 向 量 bp， 于 是 可 以 将 式 (6.1 ) 写成 矩阵 形式 : 


f(x)=(1 … 1)ixx: Logistic(Wx + b) (6.2) 
Logistic(Wx + b) 对 向 量 Wx + bb 的 每 个 分 量 施 加 Logistic 函数 。 用 1 x 的 全 1 矩阵 乘 以 
Logistic(Wx + b)， 等 于 将 其 全 部 分 量 相 加 。 当 x 是 2 维 , k = 3 时 , 式 (6.2 ) 的 典型 函数 图 像 如 
图 6-3 所 示 。 


图 6-3 ”三 个 逻辑 回归 模型 之 和 


在 图 6-3 中 , 三 个 逻辑 回归 模型 的 权 值 向 量 分 别 指向 不 同 的 方向 。 每 个 逻辑 回归 模型 沿 它 的 
权 值 向 量 的 方向 抬 高 函数 值 , 沿 相 反 的 方向 压低 函数 值 。 将 三 个 模型 的 值 相 加 就 得 到 图 中 复杂 的 
图 像 。 图 中 的 箭头 就 是 三 个 逻辑 回归 模型 的 权 值 向 量 。 复杂 的 等 高 线 说 明 复合 模型 具有 非 线 性 分 
界 能 力 。Logistic 函数 是 形成 非 线性 分 界 能 力 所 必 不 可 少 的 ， 如 果 从 式 〈6.2 ) 中 去 抒 Logistic 画 
数 ， 则 变 成 : 


f(x)=0 … TDixk (Wxt+b)=wixt+b (6.3 ) 
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其 中 : 
党 wi 
w = : (6.4) 
1 wi 
wi 是 第 i 个 逻辑 回归 模型 的 权 值 向 量 的 第 j 个 分 量 ,，b = 六 1b 是 k 个 偏 置 之 和 。 式 (6.3 ) 表 


J 


明 : 去 掉 Logistic 函数 后 的 复合 模型 退化 成 了 仿 射 函数 ， 如 图 6-4 所 示 。 


图 6-4 ”去 掉 Logistic 函数 的 复合 模型 


Logistic 函数 将 输出 压缩 在 (0, D) 区 间 。 逻 辑 回归 模型 的 输出 沿 着 权 值 向 量 的 方向 扬 起 ， 趋 近 
于 1， 沿 相反 的 方向 压低 ， 趋 近 于 0。 我 们 可 以 将 扬 起 的 一 端 称 为 激活 端 ， 将 压低 的 一 端 称 为 抑 
制 端 。 每 一 个 逻辑 回归 模型 的 抑制 端 趋 近 于 0， 参 与 加 和 时 不 影响 另 一 个 模型 沿 着 该 方向 扬 起 ， 
这 就 允许 多 个 逻辑 回归 模型 各 管 一 方 ， 各 司 其 职 ， 形 成 合作 。 


如 果 去 掉 Logistic 函数 ， 模 型 的 激活 端 可 以 高 到 正 无 穷 ， 而 抑制 端 可 以 低 到 负 无 穷 。 那 么 一 
剖 端 就 有 可 能 抵消 另 一 个 模型 的 激活 端 , 使 它们 拾 高 输出 的 努力 成 为 徒劳 , 无 法 合作 


个 模型 的 抑 
形成 复杂 分 界面 ， 如 图 6-5 所 示 。 
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带 Logistic 函 数 


在 图 6-5 左 图 中 ， 两 个 逻辑 回归 模 
抵消 对 方 的 激活 端 。 右 图 中 的 两 个 模型 


不 带 Logistic 函 数 


图 6-5 输出 不 加 限制 ， 则 模型 互相 抵消 ， 无 法 合作 


型 朝 相 反 的 方向 激活 ， 它 们 的 抑制 端 趋 近 于 0， 相 加 后 不 
没有 Logistic 图 数 ， 于 是 每 个 模型 的 抑制 端 抵消 了 对 方 的 


激活 端 。 正 如 式 〈6.3 ) 表明 的 那样 ， 这 两 个 模型 之 和 是 一 个 仿 射 函数 。 


6.2 多 层 全 连接 神经 网 络 


对 “逻辑 回归 之 和 ”复合 模型 进行 改进 : 将 简单 的 加 和 变 成 加 权 求 和 再 加 偏 置 ， 也 就 是 对 多 


个 逻辑 回归 的 输出 施加 仿 射 函数 ， 为 了 使 结果 能 被 解释 为 概率 ， 


了 对 这 个 仿 射 函数 的 输出 施加 


Logistic 函数 ， 将 输出 控制 在 (0, 1) 区 间 。 


这 其 实 就 是 将 多 个 逻辑 回归 的 输出 当 作 男 一 个 逻辑 回归 


的 输入 。 当 x 是 2 维 ，k = 3 时 ， 这 个 复 


合 模型 如 图 6-6 所 示 。 


这 个 复合 模型 就 是 一 个 简单 的 多 层 全 连接 神经 网 络 ， 每 一 个 逻辑 回归 ee 经 元 
Logistic 函数 被 称 为 激活 函数 (activation function )。 权 值 和 偏 置 的 上 标 表示 层 数 ， 一 


层 内 神经 元 的 编号 。 权 值 的 第 二 脚 标 表 
权 值 是 第 二 层 的 第 一 个 神经 元 与 上 一 层 第 


A 层 神 经 元 的 编号 ee 
二 个 输出 之 间 的 连接 的 权重 。 
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1 
W1,1 
bl 
w. 1 2 
XT 1,2 WI1 
1 
W2,1 
> Logistic w2 2 2 
1: 
W2,2 
2 
bi bs 
Xx 4 w2 
2 下 13 
W3,1 
才 (2 Cee) 
b3 


图 6-6 ”将 多 个 逻辑 回归 的 输出 当 作 另 一 个 逻辑 回归 的 输入 


多 层 全 连接 神经 网 络 又 称 为 多 层 感 知 机 , 它 的 神经 元 被 组 织 成 层 状 ， 层 数 不 限 。 输 入 向 量 的 
每 一 个 分 量 连 接 到 第 一 层 的 每 一 个 神经 元 , 前 一 层 每 个 神经 元 的 输出 连接 到 下 一 层 每 个 神经 元 的 
输入 。 最 后 一 层 神 经 元 的 输出 是 网 络 的 输出 ， 称 为 输出 层 ， 其 他 层 称 为 隐藏 层 ， 因 为 它们 的 输出 
在 网 络 外 部 不 可 见 。 图 6-6 中 的 复合 模型 是 一 个 2 个 输入 、1 个 隐藏 层 、1 个 输出 层 的 多 层 全 连接 
神经 网 络 ， 其 唯一 的 隐藏 层 包 含 三 个 神经 元 。 


本 书 用 上 标 表示 层 的 编号 , 最 接近 输入 的 层 是 第 1 层 , 第 一 脚 标 是 层 内 神经 元 的 编号 , 第 二 
脚 标 是 神经 元 输入 的 编号 。 例 如 第 k 层 的 第 i 个 神经 元 的 权 值 向 量 是 wf。w* 的 第 j 个 分 量 ， 即 该 神 
经 元 对 第 j 个 输入 的 权 值 是 wk 。 这 个 神经 元 的 偏 置 是 pk ， 它 的 仿 射 函 数 的 输出 用 ef 表示 , 激活 函 
数 的 输出 用 x 表示 。 之 所 以 用 字母 x 表示 输出 , 是 因为 这 层 的 输出 也 是 下 一 层 的 输入 。 输入 向 量 x 
的 维 数 是 n*" ， 每 一 个 分 量 为 x? 。 第 k 层 神经 元 的 数量 用 mn* 表 示 。 


因为 网 络 中 层 与 层 之 间 是 全 连接 的 ， 所 以 第 k 层 的 每 个 神经 元 的 输入 数量 等 于 前 一 层 的 神经 
元 的 个 数 n*“1。 以 第 k 层 神经 元 的 权 值 向 量 作 为 行 ， 可 构造 n* x mn*! 的 权 值 矩阵 W*。 以 第 k 层 神 
经 元 的 偏 置 为 分 量 ， 可 构造 偏 置 向 量 b*。 于 是 图 6-6 中 的 复合 模型 就 可 以 表示 成 : 


f(x) = Logistic(W? . Logistic(Wix + b1) + b?) (6.5) 


式 ( 6.5 ) 中 的 Logistic 函数 是 对 向 量 的 每 一 个 分 量 施 加 的 。 x 是 2 维 向 量 , Wi 是 3x2 和 矩阵 。 
b! 是 3 维 向 量 ,W? 是 1x2 和 矩阵 ,br 是 1 维 向 量 , 即 标量 ,整个 f(x) 是 一 个 RR 一 民 ! 的 也 数 ,f(x) 的 典 
型 图 像 如 图 6-7 所 示 。 
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图 6-7 2 个 输入 、1 个 输出 的 多 层 全 连接 神经 网 络 的 典型 图 像 


多 层 全 连接 神经 网 络 可 以 有 多 个 隐藏 层 ， 输 出 层 也 可 以 有 多 个 神经 元 。 图 6-8 展示 了 一 个 例 
子 , 该 网 络 接受 2 个 输入 , 第 一 隐藏 层 和 第 二 隐藏 层 各 有 3 个 神经 元 , 输出 层 有 2 个 神经 元 ， 即 
网 络 的 输出 是 一 个 2 维 向 量 。 


> 营 


第 1 隐藏 层 第 2 隐藏 层 输出 层 


正 其 


图 6-8 多 层 全 连接 神经 网 络 
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网 络 输入 和 输出 的 维 数 应 根据 问题 而 定 ， 隐 藏 层 数 以 及 每 个 隐藏 层 的 神经 元 数 可 任意 设置 。 
激活 函数 也 不 限于 Logistic 函数 ， 每 一 层 甚 至 每 个 神经 元 都 可 以 采用 不 同 的 激活 函数 。 例 如 ， 如 
果 目 的 是 拟 合 某 个 映射 , 那么 将 输出 限制 在 (0, D) 区 间 显 然 是 不 合适 的 , 这 种 情况 下 输出 层 神经 元 
可 以 采用 恒 等 函数 作为 激活 函数 ， 相 当 于 没有 激活 函数 。 多 层 全 连接 神经 网 络 的 结构 非常 灵活 ， 
但 它 执行 的 无 非 是 一 个 映射 ， 图 6-8 中 的 神经 网 络 执行 的 映射 是 : 


f(x) = Logistic(W3 .Logistic(W 2 . Logistic(Wix + b1) 十 力 2?) + b3) (6.6) 


式 ( 6.6 ) 中 各 个 权 值 矩阵 和 偏 置 向 量具 有 恰当 的 维 数 。 注意 激活 函数 的 作用 , 知 去 掉 Logistic 
函数 ， 则 式 (6.6 ) 退化 为 : 


f(x)=WW Wixt WW bt + Wb +b =Wxt+b (6.7) 


式 (6.7 ) 是 仿 射 映射 ， 下 一 章 会 详细 介绍 。 多 层 全 连接 神经 网 络 是 一 种 简单 的 神经 网 络 ， 
它 不 包含 反馈 ,连接 只 存在 于 层 与 层 之 间 ， 层 内 部 的 神经 元 之 间 没 有 连接 。 多 层 全 连接 神经 网 络 
的 结构 取决 于 : 输入 和 输出 的 维 数 、 隐 藏 层 的 数量 、 各 隐藏 层 的 神经 元 数量 以 及 每 个 神经 元 的 激 
活 函数 。 结 构 确 定 后 ,网 络 的 行为 取决 于 各 层 的 权 值 和 矩阵 和 偏 置 向 量 , 它们 是 待 训练 的 模型 参数 。 


6.3 ”激活 函数 


在 神经 网 络 中 , 神经 元 对 仿 射 函数 的 输出 施加 的 单调 函数 称 为 激活 函数 。 逻辑 回归 模型 作为 
神经 元 ， 它 的 激活 函数 就 是 我 们 熟悉 的 Logistic 函数 。 前 文 介绍 过 ， 激 活 函 数 对 于 形成 非 线 性 分 
界面 功 不 可 没 。 蔡 去 掉 激 活 函 数 ， 则 无 论 有 多 少 层 、 多 少 神经 元 ， 网 络 都 将 退化 成 为 仿 射 映射 。 
除了 Logistic 函数 ， 还 有 很 多 种 激活 函数 ， 本 节 介 绍 最 常用 、 最 有 代表 性 的 几 种 并 讨论 它们 的 性 
质 。 在 不 引起 混淆 的 情况 下 ， 每 节 都 用 f (x) 表示 该 节 讲解 的 激活 函数 。 


6.3.1 Linear 


最 简单 的 激活 函数 是 线性 函数 linear function ): 


f(x) = Linear(x) = x (6.8) 


线性 函数 也 称 恒 等 函 数 ( identity function )。 线 性 函数 的 导数 是 : 
f'(x)=1 (6.9) 


线性 函数 及 其 导数 的 图 像 如 图 6-9 所 示 。 
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一 一 f(x) 
---- ro 


图 6-9 线性 函数 及 其 导数 的 图 像 
申 经 元 以 线性 函数 为 激活 函数 ， 就 相当 于 没有 激活 函数 。 


-> 


6.3.2 Logistic 


Logistic 函数 我 们 已 经 非常 熟悉 了 ， 它 是 逻辑 回归 的 回 有 组 成 。 当 逻辑 回归 模型 被 视 为 神经 
元 时 ，Logistic 函数 就 是 它 的 激活 函数 。 再 次 将 Logistic 函数 写 出 : 


f(x) = Logistic(x) = 二 (6.10 ) 


Logistic 函数 的 导数 是 : 


2 


1+e-X 1l+te™* 


广 0D = ss = FoOG- Fo) (6.11) 


式 (6.11 ) 表明 ， 在 已 经 计算 出 Logistic 函数 在 x 的 值 之 后 ， 也 很 容易 计算 它 在 x 的 导数 。 在 
训练 时 ， 这 个 性 质 可 以 节省 计算 量 。Logistic 函数 及 其 导数 的 图 像 如 图 6-10 所 示 。 
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Logistic 函数 在 正 无 穷 趋 近 于 1 ， 


sigmoid 曲线 。Logistic 也 


水 平 线 ， 也 称 为 在 正 负 两 侧 远 


图 6-10 ”Logistic 也 


数 及 其 导数 的 图 像 


在 负 无 穷 趋 近 于 0， 其 图 像 整体 呈 S 形 , 故 这 条 曲线 又 称 为 


函数 的 导数 在 原点 最 大 ， 为 0.25。 在 原点 周围 的 小 邻 域内 ，Logistic 函数 
接近 线性 函数 。Logistic he a 所 以 Logistic 孙 


函数 在 两 侧 远 端的 图 像 接近 


“饱和”。Logistic 函数 在 “饱和 ”区 域 的 导数 接近 0， 这 对 神经 


元 的 训练 不 利 。 可 Da Logistic 函数 在 原点 的 斜率 : 


f(x; o) 的 导数 是 : 


f(x;aQ) = Logistic(x; w) = 


f(x;a) = a 


Te- 


= af (x; oa)(1 — f(x; a)) 


(6.12) 


(6.13) 


fx; Q) 在 原点 的 导数 是 >， 通过 参数 a 可 调整 f(x; qa) 在 原点 的 斜率 ， 如 图 6-11 所 示 。 
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2 


上 WwW N 靖 


图 6-11 不 同 c 的 Logistic 函数 的 图 像 
当 a 趋 近 于 正 无 穷 时 ，Logistic 函数 趋 近 于 阶 跃 函数 ( step function ): 


Re (6.14) 
阶 跃 函数 在 原点 不 可 导 ， 其 至 不 连续 。 现 代 神 经 网 络 一 般 不 采用 阶 跃 函 数 作为 激活 函数 。 
6.3.3 Tanh 
Tanh 又 称 双 曲 正切 函数 ， 它 与 Logistic 函数 相似 ， 但 值 域 是 (- 1): 
f(x) = Tanh(x) = 与-e (6.15 ) 
对 Tanh 变形 ， 可 发 现 它 与 Logistic 函数 的 联系 : 
f= = 2 Logistic(x;2) —1 (6.16) 
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Tanh 将 Logistic(x; 2) 缩 放 为 2 倍 ,再 向 下 移动 1.Logistic(x;2) 的 值 域 是 (0, 1) ,缩放 后 是 (0, 2)， 
下 移 后 Tanh 的 值 域 是 (-1, 1)。Logistic(x; 2) 在 原点 的 值 是 0.5， 缩 放 后 是 1， 下 移 后 Tanh 在 原点 
的 值 是 0。Tanh 的 导数 也 容易 求 得 : 


1+f (x) . 1—f (x) 三 f(x)? (6.17) 


f'(x) = 4 x Logistic(x; 2)(1 — Logistic(x; 2)) =4x 


p 2 


Tanh 函数 及 其 导数 的 图 像 如 图 6-12 所 示 。 


一 一 f(x) 
---- fx) 


EP + Y + 
J6 2 4 6 


图 6-12 ”Tanh 函数 及 其 导数 的 图 像 
Tanh 的 图 像 也 是 sigmoid 曲线 ， 在 正 无 穷 趋 近 于 1， 在 负 无 穷 趋 近 于 0， 在 原点 的 导数 为 1。 


Tanh 在 原点 周围 接近 直线 ， 在 正 负 远 端 饱和 ， 接 近 水 平 线 。 同 样 可 以 通过 给 x 添加 系数 a 来 调整 
Tanh 在 原点 的 斜率 : 
f(x;a) = Tanh(x; w) = 2 = 2.Logistic(x; 2a)—1 (6.18) 


不 同 cx 的 Tanh 函数 的 图 像 如 图 6-13 所 示 。 
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图 6-13 ”不同 a 的 Tanh 函数 的 图 像 


当 w 趋 近 于 正 无 穷 时 ，Tanh 函数 趋 近 于 : 


6.3.4 ReLU 


EX 


(6.19) 


线性 整流 单元 ReLU (rectified linear unit ) 是 深度 学 习 常 用 的 激活 函数 ， 它 的 定义 是 : 


0,xX<0 
f(x) = ReLUCo = | 0 
ReLU 的 导数 是 : 
rr、_f0x<0 
三 0) = 全 x>0 


ReLU 在 原点 不 可 导 。ReLU 及 其 导数 的 图 像 如 图 6-14 所 示 。 


(6.21) 
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-1.00 -0.75 -0.50 =0.25 0.00 0.25 0.50 0.75 1.00 


图 6-14 ReLU 及 其 导数 的 图 像 


ReLU 非常 简单 ， 它 其 实 就 是 max(x, 0)。 当 自 变量 大 于 0 时 ，ReLU 的 导数 为 1; 当 自 变量 小 
于 0 时 ， 它 的 导数 为 0。ReLU 在 原点 不 可 导 ， 编 程 实现 时 ， 可 令 ReLU 在 原点 的 导数 为 0。 


相 比 于 Logistic 和 Tanh，ReLU 只 在 负 侧 饱和 ， 在 正 侧 可 拾 高 至 正 无 穷 。ReLU 的 图 像 是 分 
段 的 两 条 直线 ， 并 不 像 Logistic 和 Tanh 那样 旦 S 形 。 但 这 并 不 影响 多 个 神经 元 的 合作 ，ReLU 神 
经 元 在 抑制 端 为 0， 其 他 神经 元 就 可 以 在 该 方向 上 拾 高 输出 ， 而 互 不 干扰 。 


Logistic 和 Tanh 在 两 侧 饱和 区 域 的 导数 接近 0， 这 会 导致 神经 元 难以 训练 。ReLU 在 正 侧 不 
存在 人 饱和， 一定 程度 上 缓解 了 这 个 问题 。 但 是 当 自 变量 为 负 时 ，ReLU 的 导数 为 0, 一 旦 ReLU 
的 输入 为 负 ， 则 神经 元 无 法 得 到 训练 。 


6.3.5 Leaky ReLU 以 及 PReLU 


Leaky ReLU 的 负 侧 接近 水 平 ， 但 不 是 真 的 水 平 : 


0.01x, x<0 


0.22 
X, X 宇 0 ( ) 


i 
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其 导数 是 : 
Pe (6.23 ) 


Leaky ReLU 在 原点 不 可 导 ， 它 及 其 导数 的 图 像 如 图 6-15 所 示 。 


一 一 f(x) 
---- f(xX) 


—1,00 .po k , 8 1.00 


图 6-15 ”Leaky ReLU 及 其 导数 的 图 像 


Leaky ReLU 在 负 侧 的 斜率 是 0.01, 接近 水 平 。 它 在 负 侧 的 导数 虽 小 但 不 为 0, 这 就 避免 了 激 
活 函 数 输 入 为 负 时 神经 元 无 法 得 到 训练 的 问题 。 若 引入 参数 w 代 替 0.01，Leaky ReLU 就 成 了 


PReLU (parameteric rectified linear unit ): 


ax, X<0 


je J (6.24 ) 
PReLU 的 导数 是 : 
el (6.25 ) 


当 c = 0.01 时 ，PReLU 就 是 Leaky ReLU， 当 a = 0 时 ，PReLU 就 是 ReLU。 
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6.3.6 SoftPlus 


Logistic 函数 可 视 为 “ 软 阶 跃 ”， 它 是 对 阶 跃 函数 的 光滑 近似 。ReLU 的 导数 是 阶 跃 函数， 那 
么 以 Logistic 函数 为 导数 的 函数 就 是 对 ReLU 的 光滑 近似 : 


二 dx = 一 -dex =1log(1+ez) (6.26 ) 


1 二 +e 一 X 1 十 eX 


f(x) = SoftPlus(x)= / 


SoftPlus 的 导数 就 是 Logistic 函数 。SoftPlus 及 其 导数 的 图 像 如 图 6-16 所 示 。 


6 


一 Ag) 
---- f(x) 


6-16 ”SoftPlus 及 其 导数 的 图 像 


SoftPlus 的 导数 在 正 无 穷 趋 近 于 1 ,在 负 无 穷 趋 近 于 0, 其 图 像 在 正 侧 趋 近 于 斜率 为 1 的 直线 ， 
在 负 侧 趋 近 于 水 平 线 。SoftPlus 在 原点 的 导数 是 0.5。a 参 数 可 调整 Logistic(x; a) 函 数 在 原点 的 斜 
率 ，Qa 越 大 ， 则 Logistic(x; w) 函 数 越 接 近 阶 跃 函 数 。 对 Logistic(x; a) 求 积分 ， 得 到 : 


f(x;a) = [— dx = 工 [一 -decx = =~log(1 + eo*) ( 6.27) 


1Pe 0% 人 


不 同 c 的 Fx; ao) 的 图 像 如 图 6-17 所 示 。 
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图 6-17 不 同 a 的 SoftPlus 函数 图 像 


随 着 a 趋 近 于 正 无 穷 ，SoftPlus 趋 近 于 ReLU。SoftPlus 是 ReLU 的 光滑 近似 ， 它 具备 ReLU 
的 良好 性 质 ， 并 避免 了 原点 不 可 导 和 负 侧 导数 为 0 的 问题 。 但 是 SoftPlus 的 导数 不 易 计算 ， 这 会 
对 训练 的 效率 造成 影响 。 


6.4 多 分 类 与 SoftMax 


单个 神经 元 只 能 预测 二 分 类 ， 而 神经 网 络 的 输出 层 可 以 有 任意 多 个 神经 元 ， 可 以 用 来 预测 
多 个 类 别 的 分 类 。 为 了 能 把 多 个 神经 元 的 输出 当 作 多 分 类 的 概率 ， 须 要 求 它们 在 (0,1) 区 间 内 ， 
且 和 为 1。 为 了 达到 这 个 要 求 ， 可 对 多 个 输出 施加 SoftMax 孙 数 。SoftMax 是 一 个 R” 一 恨 " 的 
映射 : 


ex1 

n 总 
Zi=1e i 

ex2 


SoftMax(x) = o(x) = | Fei ex (6.28 ) 


en 


Pi ei 
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以 下 用 a (x) 表示 SoftMax 函数 。 由 式 (6.28 ) 可 见 ，o(x) 的 每 一 个 元 素 都 在 (0, 1) 区 间 内 , 且 
它们 的 和 为 1。 可 将 a(x) 视 为 多 分 类 概率 分 布 ， 第 j 类 的 概率 是 : 


jo _e/ 
二 二 (6.29 ) 
第 j 类 和 第 类 的 概率 之 比 是 : 
pi ex Ze 区 
pk Bre exk Gr (6.30) 


如 果 只 在 第 j 类 和 第 类 之 间 判 断 , 那么 结果 取决 于 e* 率 是 否 大 于 1, 也 就 是 xj 一 xX 是否 大 
于 0。 若 xj > xk， 则 预测 为 第 j 类， 否则 预测 为 第 类 。 令 d 是 所 有 分 量 都 是 常量 4 的 向 量 ， 有 : 


ex1i-d ex1/ed ex1 
Zexi 4 Fle*i/ed Ze 
ex2-d ex2 /ed exX2 
ol(x—d)=| ye*rid |= | yrie*i/ed |= | Frie*i |= o(x) (6.31) 
oxn-d exn Jed exn 
FeviTd Frie*i/ed Ze 


式 (6.31 ) 表明 ， 将 每 个 输入 xj(j = 1,…,n ) 都 减 去 常量 4 后，o(x) 的 值 不 变 。 令 SoftMax 
的 输入 是 样本 的 仿 射 映射 : 


p(Xx) = o(Wx + b) (6.32 ) 


输入 向 量 x 是 n 维 向 量 ,， 即 样本 有 n 个 特征 ，W 是 k x ?和 矩阵 ,8 是 上 维 俩 置 向 量 ， 送 给 SoftMax 
的 输入 是 k 维 向 量 ， 可 得 到 k 个 类 别 的 概率 。 式 ( 6.32 ) 是 一 个 k 分 类 模型 ， 这 就 是 多 分 类 逻辑 回 
归 模 型 。 其 中 第 ;类 和 第 j 类 的 概率 之 比 是 : 


pe ow) ror (Go) esd) elms =wjs) tCorb) (633) 


了 
其 中 ，wi, 是 W 的 第 i 行 的 转 置 ，wj, 是 W 的 第 j 行 的 转 置 。 式 ( 6.33 ) 表明 第 i 类 和 第 j 类 的 分 界面 
是 一 个 超 平面 。 如 果 类 别 数 k = 2， 令 第 1 类 的 概率 为 p， 第 2 类 的 概率 为 1 -p， 则 有 : 


ee 2 Elwin—w2,s) x+(b1—b2) 过 ewTx+D ( 6.34 ) 
ee 


其 中 ， W = Wix — W2,x, b = bi — bo 对 式 (6.34 ) 变形 得 到 : 


2 (6.35 ) 


Te 
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式 (6.35 ) 正 是 二 分 类 逻辑 回归 ， 所 以 二 分 类 逻辑 回归 是 多 分 类 逻辑 回归 的 特例 。 多 分 类 逻 
辑 回归 对 输入 向 量 施加 仿 射 映射 后 ， 再 施加 SoftMax 函数 得 到 多 类 别 的 概率 ， 如 图 6-18 所 示 。 


一 
W11 下 
bi 
X1 W1,2 
W2,1 
W2,2 
bz 
X2 名 
3,1 
W3,2 


bs 


———> pb1 


———> bp2 


xeJADJoS 


> pb3 


图 6-18 多 分 类 逻辑 回归 的 示意 图 


图 6-18 是 一 个 在 单 神经 元 层 之 后 加 SoftMax 层 的 简单 神经 网 络 。 多 隐藏 层 的 神经 网 络 也 可 
以 加 SoftMax 层 来 建 模 多 分 类 问题 ， 如 图 6-19 所 示 。 


图 6-19 ” 带 SoftMax 层 的 多 层 全 连接 神经 网 络 


三 


申 经 网 络 的 行为 取决 于 所 有 权 值 和 偏 置 ,它们 是 神经 网 络 模型 的 参数 ， 是 待 训练 的 对 象 。 训 
练 神经 网 络 也 使 用 梯度 下 降 法 , 但 偏 导数 的 计算 比较 复杂 。 下 一 章 将 介绍 计算 这 些 偏 导数 的 反 疝 


传播 算法 。 


je 
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6.5 小结 


单个 神经 元 的 能 力 是 有 限 的 , 它 只 能 产生 超 平面 分 界面 , 而 多 个 神经 元 合作 可 以 形成 神经 网 
络 ,神经 网 络 具有 非 线性 分 类 能 力 。 本 章 介绍 了 多 层 全 连接 神经 网 络 ， 并 简单 直观 地 解释 了 其 能 
力 的 来 源 。 


神经 元 对 输入 向 量 施加 仿 射 函数 后 再 施加 激活 函数 ，Logistic 函数 是 逻辑 回归 模型 的 激活 
数 。 本 章 介绍 了 另外 几 种 激活 函数 ， 并 讨论 了 它们 的 性 质 。SoftMax 函数 既 可 以 视 为 一 种 激活 
数 , 也 可 以 视 为 神经 网 络 的 一 层 , 它 将 神经 网 络 的 输出 整理 成 多 分 类 的 概率 ,概率 的 大 小 取决 于 
相应 输入 的 相对 大 小 。 


四 
四 


阅读 完 本 章 ， 读 考 应 该 对 多 层 全 连接 神经 网 络 的 结构 和 能 力 有 了 较 清 晰 的 理解 ， 下 一 章 中 ， 
我 们 将 以 分 类 问题 为 例 讲解 多 层 全 连接 神经 网 络 的 训练 方法 ， 即 反 向 传播 配合 梯度 下 降 。 


有 反问 传播 


本 章 讲解 如 何 训练 多 层 全 连接 神经 网 络 〈 以 下 简称 神经 网 络 )。 训 练 神经 网 络 主要 使 用 一 阶 
算法 ,例如 第 3 章 介绍 的 梯度 下 降 法 及 其 变 体 。 梯 度 下 降 法 需要 计算 损失 函数 对 模型 参数 的 梯度 。 
神经 网 络 的 参数 很 多 且 关 系 复杂 , 计算 它们 的 偏 导数 比 逻辑 回归 时 要 复杂 。 反 向 传播 算法 就 是 计 
算 这 些 偏 导数 的 方法 。 


若 想 透彻 理解 反 向 传播 算法 的 原理 , 需要 掌握 映射 、 仿 射 映射 、 雅 可 比 和 矩阵 以 及 映射 求 导 的 
链 式 法 则 等 知识 。 本 章 在 回顾 这 些 知 识 后 , 给 出 反 向 传播 算法 的 详细 推导 和 实现 。 本 童 还 讨论 了 
些 与 神经 网 络 的 训练 有 关 的 话题 ， 包 括 计 算 量 、 梯 度 消失 、 正 则 化 、 权 值 初始 化 和 提前 停止 。 


严格 来 讲 , 反 向 传播 并 非 训 练 神经 网 络 的 算法 , 它 是 计算 损失 函数 对 神经 网 络 权 值 和 偏 置 的 
裔 导 数 的 算法 。 有 了 偏 导数 ， 也 就 有 了 梯度 ,更 新 权 值 和 偏 置 用 的 仍 是 梯度 下 降 法 。 反 向 传播 是 
训练 神经 网 络 过 程 中 的 一 个 环节 。 需 要 注意 的 是 , 本 章 介绍 的 反 向 传播 只 适用 于 多 层 全 连接 神经 
网 络 , 可 以 看 作 狭 义 的 反 向 传播 , 它 是 计算 图 自动 求 导 的 一 个 特例 。 计算 图 自动 求 导 可 用 于 任意 
神经 网 络 结构 的 训练 ， 它 是 下 一 章 将 要 介绍 的 内 容 。 


7.1 映射 

映射 是 函数 的 推广 ， 函 数 的 输出 是 标量 ， 即 实数 ， 而 映射 的 输入 和 输出 都 是 向 量 。 函 数 可 接 
受 多 个 输入 , 但 只 产生 一 个 输出 。 单 个 神经 元 ( 如 人 逻辑 回归 ) 就 是 一 个 函数 。 映 射 接受 多 个 输入 
并 产生 多 个 输出 , 神经 网 络 执行 的 计算 就 是 一 个 映射 。 本 节 回 顾 关于 映射 的 知识 , 包括 线性 映射 
与 矩阵 的 关系 、 仿 射 映射 、 雅 可 比 和 矩阵 以 及 映射 求 导 的 链 式 法 则 。 


7.1.1 仿 射 映射 


之 前 讨论 的 都 是 函数 (其 值 为 标量 )， 本 节 讨 论 的 是 值 为 向 量 的 映射 (map )。 函 数 是 映射 的 
特例 ， 因 为 标量 是 一 维 向 量 ， 下 面 将 函数 和 映射 统称 为 映射 。 如 果 对 于 任意 向 量 x、y 以 及 任意 
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实数 a、bp， 映 射 f: RR* 一 RR" 满足 : 
flax+by)= af(x)+bf(y) (7.1) 


则 称 f 是 线性 映射 (linear map ), 如 果 f: 民 * 一 RR" 是 线性 映射 ,那么 必然 存在 一 个 m x n 的 矩阵 4， 
对 任意 x 满足 : 


f(x) = 4x (7.2) 


下 面 我 们 来 证 明 这 个 结论 ， 任 意 x € R" 都 可 以 用 标准 基线 性 表 出 x = ?及 ;Xie:， 因 为 F 是 线 
性 映射 ， 所 以 有 : 


X1 
f(x) = frixie) = Pixifle) = (Fe … riey( : | = 4x (7.3) 


Xn 


f(ei) 是 对 ei 施加 映射 f 而 得 到 的 m 维 向 量 ,m x ?矩阵 4 = (f(e!) … ff(e”)) 满 足 式 (7.2 )。 
如 果 线 性 映射 的 值 是 标量 ， 则 它 的 矩阵 的 形状 是 1 x n， 是 一 个 行 向 量 。 线 性 映射 必 将 RR"* 中 的 零 
癌 量 映射 到 R™ 中 的 零 向 量 ， 这 是 因为 : 


f(0)=A0=0 (7.4) 


仿 射 映射 (affine map ) 是 线性 映射 加 上 一 个 常 向 量 b: 


f(x)=Ax+b (7.5) 

如 果 b 不 是 零 向 量 ， 则 仿 射 映射 不 保持 零 向 量 。 仿 射 映射 可 以 看 作 由 若干 个 仿 射 函 数组 成 : 
f1(%) (a1s) x+ bi 

rw -| : j -ro- (7.6) 
六 网 Co 


f 的 第 ;分 量 用 f 表示，(ai,) 是 算 阵 4 的 第 : 行 。 


7.1.2 雅 可 比 答 阵 
如 果 映 射 f: R" 一 有 R" 在 自 变量 x 附近 可 以 写成 : 


f(x+h)= f(x)+Ah+ 人 ROR) (7.7) 


A 是 由 x 而 定 的 矩阵 ， 余 项 RR(h) 是 m 维 向 量 ,满足 : 
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Rh) _ 
lim|nl so Tal =0 ( 7.8 ) 


则 称 映 射 f 在 x 可 导 。A 是 f 在 x 的 雅 可 比 矩 阵 (Jacobian matrix )， 简 称 雅 可 比 。 式 〈7.7 ) 的 含义 是 
f(x 十 有 可 被 关于 h 的 仿 射 映射 f(x) + Ah 近 似 ， 近 似 误差 随 h 趋 近 于 零 向 量 而 消失 ， 且 消失 得 足 
够 快 一 一 误差 的 每 个 分 量 都 是 ||h| 的 高 阶 无 穷 小 ,输出 是 标量 的 可 导 映 射 ( 函数 ) 的 雅 可 比 是 1 x n 
矩阵， 即行 向 量 。 根 据 式 (7.7 ) 可 知 ， 这 个 雅 可 比 行 向 量 是 该 函数 在 x 的 梯度 的 转 置 。 


根据 式 (7.7 )， 可 导 映 射 f 的 第 i 分 量 在 x 附近 的 值 fi(x + 门 是 : 


filx+h) = fix) + (qi,) x + Rh) (7.9) 


(ai ,) 是 雅 可 比 矩 阵 的 第 1 行 ，RiCh) 是 RCh) 的 第 分量， 是 | 的 高 阶 无 穷 小 ， 所 以 qj, 是 函 
数 fi(x) 在 x 的 梯度 : 


Of i(x) 


ai = Vf'(X) = : (7.10) 


所 以 六 在 x 的 雅 可 比 和 矩阵 4 的 每 一 行 是 /的 每 一 分 量 在 x 的 梯度 的 转 置 : 


Of 1(x) ms Of1(x) 
Vf1(x)T OXx1 Oxn 
Mx = : = : 六 (7.11 ) 
Vf™ (x)T YW .. DW 
OX1 Oxn 


映射 是 函数 的 推广 ， 雅 可 比 是 梯度 的 推广 。 


7.1.3” 链 式 法 则 
我 们 熟悉 一 元 复合 函数 (四 9)(x) = f(g(x)) 的 求 导 链 式 法 则 : 


a = f'(g(x))g' (x) (7.12) 


可 导 映 射 的 雅 可 比 也 有 类 似 结论 。 阁 g: R" 一 R* 和 f: R* 一 RR" 是 两 个 可 导 映 射 , 则 它们 的 复 
合 f 田 9: R" 一 RR" 也 是 可 导 映 射 。 如 果 g 在 x 的 雅 可 比 是 k x n 算 阵 4g, f 在 g(x) 的 雅 可 比 是 m x k 
矩阵 4 ， 则 矿 @@ 9g 在 x 的 雅 可 比 是 m xm 矩阵 4 . 4s。 我 们 来 证 明 这 个 结论 ， 因 为 gq 和 f 分 别 在 x 和 
9(X) 可 导 ， 运 用 式 (7.7 ) 展开 : 
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f BIx+h= f(g +h) = (g0) + Agh+ RR))= f(g9%)) + A (Agh + RR)) 


+R (Agh+ RR))=f DI) + Ap: Ag)h+ (4 Rh) + R (doh + RK))) (7.13) 


要 证 明 余 项 是 高 阶 无 穷 小 , 需要 证 明 当 ||hl| 趋 近 于 0 时 , (4r :RCI + (4gh + (1)))/llnl 
趋 近 于 零 向 量 。 下 面 将 两 项 分 开 来 看 ,第 一 项 : 


: AF-RR) _ Rh) _ = 
limnl so Ta 一 47 limnl so Ta 一 Ar0 =0 ( 7.14 ) 


接着 看 第 二 项 : 


只 Agh+R(h)) 
llall 


|Agh+R(m)) R(Agh+R(h)) 


al aool (7.15) 


Timlml-o 一 Timlal-o 


当 ||hl 趋 近 于 0 时 ,4gh 和 (Ch) 都 趋 近 于 零 向 量 ,所 以 ||4gh + 到 (有 ) 上 也 趋 近 于 0, 于 是 当 |Ihl| 欧 
近 于 0 时 ， 有 (Agh + (hh) )/||4Aoh +R() 趋 近 于 零 向 量 。 要 证 明 整 个 极限 趋 近 于 零 向 量 ， 还 
需 证 明 系 数 ||4h + R(A)||/lih| 有 界 。 因 为 向 量 之 和 的 模 不 大 于 它们 的 模 之 和 ， 所 以 有 : 


|4gh+R(m)| lAgnll+lROW) _ h lr 
人 lall S lall | | jal (7.16) 


不 论 h 如 何 变 化 ，h/lihl| 都 在 单位 球 过 上 (unit sphere )。 单 位 球 壳 是 有 界 闭 集 一 一 紧 集 
( compact set )， 紧 集 上 的 连续 函数 有 界 ， 此 定理 本 书 不 予 证 明 。Ayh/lihl| 的 每 个 分 量 都 是 单位 球 
过 上 的 连续 函数 ， 所 以 它们 有 界 ， 于 是 ||4yh/lih 呈 有 上 界 M， 所 以 : 


ei < gp, (sl) = pl < 0 


0 三 lim|nl so 


这 就 证 明了 式 (7.15 ) 的 极限 是 零 向 量 。 结 合式 (7.14 ) 和 式 (7.13 ), 说 明 f 龟 g 在 x 可 导 ， 
它 在 x 的 雅 可 比 矩 阵 是 hr . 4v ， 这 就 是 映射 求 导 的 链 式 法 则 。 


对 于 多 重复 合 映射 的 求 导 ， 可 以 连续 应 用 链 式 法 则 。 以 三 重复 合 映 射 f 图 9 四 h 为 例 ， 它 可 
以 看 作 f 与 g 多 h 的 复合 ， 它 的 雅 可 比 是 f 与 g 全 h 的 雅 可 比 之 积 ， 而 g 旬 h 的 雅 可 比 是 g 和 hh 的 雅 
可 比 之 积 ， 所 以 f 名 g 四 j 的 雅 可 比 是 广 9 和 7 的 三 个 雅 可 比 之 积 。 一 元 函数 的 雅 可 比 是 1x1 拢 
阵 ， 即 标量 ， 于 是 式 (7.12 ) 可 看 作 是 雅 可 比 之 积 。 


方向 导数 与 梯度 的 关系 也 可 以 用 链 式 法 则 证 明 ， 如 果 d 是 单位 向 量 ，f: R" 一 展 是 多 元 也 数 ， 
f 在 x 沿 d 的 方向 导数 Vaf (x) 是 也 数 f(x 十 td) 对 t 在 原点 的 导数 。 将 f(x +tq) 拆 成 两 个 映射 f 和 
9(t) = x 十 td 的 复合 。f 在 x 的 雅 可 比 就 是 梯度 的 转 置 Vf(x)T。g 是 民 一 R"* 的 映射 ， 它 在 任意 点 
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的 雅 可 比 都 是 n x 1 常量 矩阵 ， 即 n 维 向 量 : 


dg1(t) d(xi1+td1) 
dt dt di 
: = : 三 | ,|=a (7.18 ) 
dg™(t) d(xn+tadn) dn 
et dt 
根据 链 式 法 则 ， 有 : 
Vaf (x) Yt a 2 VFCoJTa (7.19 ) 
t=0 t=0 


这 就 证 明了 ， 函 数 在 某 点 沿 某 方向 的 方向 导数 是 函数 在 该 点 的 梯度 回 该 方向 的 投影 。 


7.2 反 向 传播 


本 节 介 绍 计算 损失 函数 对 神经 网 络 权 值 和 偏 置 的 偏 导数 的 方法 一 一 反 向 传播 算法 。 具备 了 映 
射 求 导 链 式 法 则 的 知识 ， 会 发 现 反 向 传播 其 实 就 是 链 式 法 则 的 简单 应 用 。 神 经 网 络 的 参数 很 多 ， 
表示 起 来 比较 繁复 ， 这 时 需要 点 耐心 。 


7.2.1 网 络 的 符号 表示 


首先 回顾 一 下 多 层 全 连接 神经 网 络 的 示意 图 和 符号 ， 如 图 7-1 所 示 。 


K 
Ung K 
f > XK 


入 第 1 隐藏 层 第 2 隐藏 导 第 kK 层 (输出 层 ) 


K 
bnx 


ni 


图 7-1 多 层 全 连接 神经 网 络 的 示意 图 和 符号 
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我 们 用 上 标 表示 层 的 编号 , 输入 向 量 是 第 0 层 ， 最 接近 输入 的 层 是 第 1 层 ， 以 此 类 推 。 神 经 
网 络 一 共有 K 层 (不 包括 输入 向 量 ), 输出 层 是 第 K 层 。 第 k 层 的 神经 元 数量 记 为 nx。 输入 向 量 x?* 有 
no 个 分 量 ， 第 i 分 量 是 x? 。 第 k 层 的 第 i 个 神经 元 的 仿 射 值 记 为 af ， 施 加 激活 函数 后 得 到 的 该 神经 
元 的 输出 记 为 x*。 因 为 第 k 层 有 ni 个 神经 元 ， 所 以 该 层 有 ni 个 输出 。 输 出 层 包 含 ng 个 神经 元 ， 所 
以 网 络 有 nx 个 输出 。 


第 k 层 的 输入 是 第 k 一 1 层 的 输出 :2 对 1.…,xt-1 。 第 k 层 的 第 i 个 神经 元 有 nx_1 个 权 值 : 
wk, w 筷 ,…, wh ，， 它 们 构成 权 值 向 量 wk。 第 k 层 的 第 i 个 神经 元 的 偏 置 是 pt。 以 第 k 层 的 全 部 神 


经 元 的 权 值 向 量 为 行 ， 构 成 nj x nx_1 的 权 值 矩阵 W*。 以 第 k 层 的 全 部 神经 元 的 偏 置 为 分 量 ， 构 
成 偏 置 向 量 b*。 


7.2.2 原理 


用 训练 样本 做 输入 向 量 , 逐 层 计 算 直 到 计算 出 神经 网 络 的 输出 ， 此 过 程 称 为 前 向 传播 。 用 网 
络 输 出 和 训练 标签 计算 损失 值 C。 在 训练 样本 和 标签 给 定 的 情况 下 ， 损 失 值 可 视 作 全 体 权 值 和 偏 
置 的 函数 。 用 梯度 下 降 法 调整 神经 网 络 的 权 值 和 偏 置 以 降低 损失 ， 这 就 是 神经 网 络 的 训练 。 


梯度 下 降 法 需要 计算 损失 值 对 所 有 权 值 和 偏 置 的 梯度 , 也 就 是 需要 计算 损失 值 对 所 有 权 值 和 
席 置 的 偏 导 数 ， 如 -全 -和 5 先 。 我 们 首先 将 一 个 神经 元 的 前 后 连接 关系 面 出 来 ， 如 图 7-2 所 示 。 
vj i 


k—1 


X1 & 2 
k+1 
k wr} 
Win 上 
k—1 
X2 人 Kk k+l 了 
Ys 
[a 
。 
TU; 
DN-1 k+l 
Wnrrui 
k—1 k 
Xnp1 bi 总 


图 7-2 第 k 层 的 第 i 个 神经 元 在 神经 网 络 中 的 前 后 连接 关系 


7-2 展示 的 是 第 k 层 的 第 i 个 神经 元 的 前 后 连接 关系 。 该 神经 元 执行 的 计算 是 : 


对 = fo) = 7 由 x+ 下 ) (720) 


该 神经 元 的 输出 xf 连 接 到 下 一 层 的 各 个 神经 元 。 根 据 链 式 法 则 ， 损 失 值 对 某 个 权 值 的 偏 导 
数 是 : 
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_1 0L 
we dak awk 一 f > 47.21 ) 
ij i ij 
损失 值 对 偏 置 的 偏 导数 是 : 
k 
or _ 9c dak _ ac (722) 


kT k RR k 
ob; Oar Ob Oai 


所 以 问题 的 关键 是 求 损 失 值 对 每 个 神经 元 的 仿 射 值 的 偏 导数 
仿 射 值 a* ， 如 图 7-3 所 示 。 


| f:R=oR H g: R= Rt+1 H h: 了 "e+i 一 取 | 


25 .观察 第 & 层 的 第 ;个 神经 元 的 


0 


Loss 


图 7-3 神经 元 仿 射 值 与 下 一 层 仿 射 值 的 关系 
对 第 k 层 的 第 i 个 神经 元 的 仿 射 值 a 施加 激活 函数 后 ， 得 到 该 神经 元 的 输出 xF: 


xk = f(ar) (7.23) 


x 与 同 层 的 其 他 神经 元 的 输出 加 权 求 和 再 加 偏 置 , 得 到 下 一 层 各 个 神经 元 的 仿 射 值 。 可 将 这 
步 计 算 看 作 映 射 g: R 一 Rk+1: 


kKk+1 nk k+l1yk k+1 
41 和 si W1s Xs 二 bi 
k+1 nk kt+1yk k+1 
a < wxs xs+b 
De | | eh 2 
K+1 nx k+l wk k+1 
Qnr1 D1 WnrrusXs Dr 


最 后 , 映射 h: R"kt1 一 民 将 第 k + 1 层 的 仿 射 值 映射 到 损失 值 L 若 将 损失 值 L 视 作 af 的 函数 ， 
则 它 是 三 个 映射 的 复合 : 


7.2 反 向 传播 165 


Llat)=h (g (f (at))) (7.25) 
根据 链 式 法 则 ，£L 对 ak 的 雅 可 比 ( 导数 ) 是 这 三 个 映射 在 相应 位 置 的 雅 可 比 之 积 : 
LF = An: Ay: Ay (7.26) 


现在 分 头 来 看 这 三 个 雅 可 比 。 产 到 ?kri 一 民 的 雅 可 比 是 1 x nxyi 和 矩阵 : 


oL oL 
An = (5 六 Har ) (7.27) 


第 二 个 映射 9: 民 一 Rr+1 的 雅 可 比 是 nxy1 x 1 矩阵, 即 nxy1 维 向 量 。 根 据 式 (7.24 ) 容 易 求 得 : 


k+1 
1 
0xi wh 1 
k+1 
Oa2 wh+1 
Ag=| oF |=| Wzi (7.28) 
: K+1 
k+1 a 
Oank+1 Ng+1t 
oxk 


hy 是 由 第 k +1 层 的 所 有 神经 元 对 第 k 层 的 第 i 个 神经 元 的 权 值 w 竺 1,w 竺 1…,wkt1 组 成 的 
向 量 。 最 后 ，f: 民 一 及 的 雅 可 比 是 1 x 1 和 矩阵， 即 标量 : 


4r = f'(at) (7.29 ) 
将 三 个 雅 可 比 代 回 式 (7.26 )， 得 到 : 


K+1 
W1i 


aL aL ) wet 


2i |f'(at) (7.30) 


k+1 
Wnprui 


有 了 2 千 ， 就 可 以 计算 损失 函数 对 第 k 层 的 第 i 个 神经 元 的 权 值 和 偏 置 的 偏 导数 了 。 式 (7.30 ) 
就 是 反 向 传播 的 含义 : 被 “传播 ”的 是 损失 值 对 仿 射 值 的 偏 导数 。 前 一 层 的 仿 射 值 偏 导数 用 后 一 


层 的 仿 射 值 偏 导数 计算 ,此 为 “ 反 向 ”。 对 于 每 一 个 训练 样本 ， 前 向 传播 计算 所 有 中 间 值 直到 网 
络 输出 ， 之 后 向 后 传播 仿 射 值 的 偏 导数 ， 进 而 计算 所 有 权 值 和 偏 置 的 偏 导数 ， 这 就 是 反 向 传播 。 


计算 式 (7.30 ) 的 前 两 个 矩阵 (向量 ) 之 积 ， 得 到 : 


or KAN k DC 
DaK 二 三 (ai ) Ws DaK+I ( 7.31 ) 
S 


从 这 个 角度 看 , 前 一 层 神经 元 的 仿 射 值 偏 导数 等 于 后 一 层 全 部 仿 射 值 偏 导数 的 加 权 求 和 , 再 
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乘 以 激活 函数 的 导数 。 可 以 将 仿 射 值 偏 导数 看 作 分 配 到 每 个 神经 元 的 局 部 误差 , 每 个 神经 元 利用 
自己 的 局 部 误差 调整 权 值 和 偏 置 。 局 部 误差 从 网 络 后 部 向 网 络 前 部 反 向 传播 , 这 是 一 个 误差 分 配 
的 过 程 。 


7.2.3 ”实现 


将 第 k 层 各 神经 元 的 仿 射 值 偏 导数 列 成 行 向 量 : 


Ak = (Ge … ) (7.32 ) 


Oa 
根据 式 (7.30 )， 有 : 


k k 
3 BE wr! 本 WA F 太 (ab 本 0 
AK {mm yu mer) , : : Se : 
dg > ， 
3 Mkt’ \ wk+1 a Kk+1 0 人 f'(ak,) 


Nkg+1l Wnkpr ung 


= ArtiWr+idiag(f’(a*)) (7.33) 


W*+!1 是 第 k + 1 层 的 权 值 矩阵 ，a* 是 第 k 层 神经 元 的 仿 射 值 组 成 的 向 量 ，f'(a*) 对 a* 的 每 一 
个 分 量 施 加 激活 函数 的 导 函 数 ，diag(f'(a*) ) 是 以 f'(a*) 的 分 量 为 对 角 线 元 素 的 对 角 和 矩 阵 。 可 以 
将 从 a* 到 a*+! 的 计算 看 作 一 个 复合 映射 g: 


ar+t1 = g(ar) = Wr+1f(a*) + br+1 (7.34 ) 


其 中 ，f(a*) 对 a* 的 每 个 分 量 施加 激活 函数 。 复 合 映 射 g 在 a* 的 雅 可 比 是 W*+1diag(f'(a*))， 这 
也 印证 了 式 (7.33 )。 根据 式 (7.21 )， 由 损失 值 对 W* 每 一 个 元 素 的 偏 导数 构 成 的 矩 阵 是 : 


k-1 0L K-1 OL 


2 Oak Nk-1 gak 
vWr* = : : = (x*-1AK)T (7.35 ) 
k-1_0L K-1 _OL 
Xx 0.. X. 一 一 一 一 
1 oag Nk-1 oak 


VW* 是 nx x nx-_1 和 矩阵 ， 其 每 一 个 元 素 是 损失 值 对 W* 对 应 元 素 的 偏 导数 ， 所 以 在 梯度 下 降 更 
新 时 只 要 将 W* 加 上 一 n .VW* 即 可 , n 是 学 习 率 。 根据 式 (7.22 ), 损失 值 对 第 k 层 的 偏 置 向 量 b* 的 
每 个 分 量 的 偏 导 数 构 成 的 向 量 是 (A*)7， 所 以 更 新 时 将 b* 加 上 一 n (CA9T7 即 可 。 还 剩 下 一 个 问题 就 
是 ， 最 后 一 层 的 仿 射 值 偏 导数 问 量 A* 如 何 计算 ? 


本 章 只 讨论 用 多 层 全 连接 神经 网 络 解决 多 分 类 问题 。 假设 问题 一 共有 nx 个 类 别 , 它 同时 也 是 
输出 层 的 神经 元 个 数 。 和 输出 层 神经 元 不 设 激活 函数 , 它们 的 输出 就 是 它们 的 仿 射 值 。 对 nx 个 输出 
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层 仿 射 值 施加 SoftMax 函数 ， 得 到 多 分 类 概率 分 布 : 


eol 
Ee 
p” af caf 
= SoftMax 人 三 ee (7.36) 
DTK at 
eng 
ed 


训练 样本 形 如 {x,y}，x 是 no 维 向 量 ， 是 神经 网 络 的 输入 ,标签 y 是 nx 维 向 量 ， 其 中 只 有 一 个 
分 量 是 1， 其 余 分 量 都 是 0。 者 y 的 第 ;分 量 为 1， 则 表示 训练 样本 属于 第 i 类 ， 这 就 是 多 分 类 标签 
的 One-Hot 编码 。 神 经 网 络 以 训练 样本 x 为 输入 ,输出 一 个 多 分 类 概率 分 布 ， 就 是 式 (7.36 )。 对 
该 分 布 应 用 交叉 精 损 失 : 


人 = 一 2 所 和 太 log (7.37 ) 


yi 是 标签 向 量 y 的 第 i 分 量 , 当 样本 属于 第 i 类 时 , y; 为 1 且 y; = 0(j i), 当 样 本 不 属于 第 类 


时 ,yi 为 0， 而 另外 某 个 y; = 1 (ji)。 计算 L 对 a# 的 ( 偏 ) 导数 : 
aL ng yi op! 


如 的 计算 分 两 种 情况 : i = s 和 i ## s， 首 先 来 看 i = s 时 : 


kK 2 2 
Kng aq K 
opi Ops 9 eaf eas ye J -(e®s ) eaf eak 
RR Re ns K 
Oas Oas Oas yk eo (2 eo ) yk eqj 2 So 


J=1 j=1 j=1 
=p°(1—p’) (7.39 ) 
当 i 基 S 时 ， 
opi 9 aK aKk aK 
el et es 
5 二 将 ng 了 | et aK ZF —p'p* (7.40) 
Ss Ss Lie J (Hse 7 


将 两 种 情况 加 代入 式 (7.38 ): 


2 ng Yi Op 
一 2 pi 7 


= = 一 次 ps( 一 D5] + bisip'ip’ =p° Fey — ys =p —y (7.41) 


= 
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又 一 个 心旷神怡 的 时 刻 : 交叉 箭 损失 函数 对 第 s 个 仿 射 值 的 偏 导 数 , 是 第 s 类 的 预测 概率 与 真 
实 概率 (1 或 0) 之 差 ps 一 y;， 所 以 神经 网 络 输 出 层 的 仿 射 值 偏 导数 行 向 量 A* 就 是 : 


AX=(p i-—y «po— ynx) (7.42) 


令 训 练 集 是 {x 中 ,yD}”， ， 共 包含 M 个 样本 ， 运 用 反 向 传播 加 梯度 下 降 训练 多 层 全 连接 神经 


网 络 的 伪 代 码 如 下 : 


Test ce 随机 初始 化 
b*=1“K 随机 初始 化 
for e in 1 to epochs: 
for i in 1 to M: 
# 前 向 传播 
X= Xx 
fork in 1to 天 一 1: 
ar 三 Wx 1+ br* 
xt = ab) 
QK = WrxK-1+ br 
p = SoftMax(a*) 
# 反 向 传播 
ET 
A =(p—y°) 
for k in K—1 to1: 
Ak = Ar+iWr+1idiag(f'(a*)) 
# 梯度 下 降 
fork in1 to Kk: 
We* > We* 一 7 (XE AD 
b* br —n: (A*)T 
Return W*=1°K, br=1K 


算法 的 外 层 循环 共 执 行 epochs 轮 , 每 轮 称 为 一 个 epoch。 每 轮 依 次 对 每 一 个 训练 样本 执行 前 
向 传播 和 反 向 传播 ， 并 更 新 参数 。 外 层 循环 结束 后 ， 算 法 返回 所 有 权 值 矩阵 和 偏 置 向 量 。 注 意 ， 
交叉 焙 损 失 本 应 该 是 全 部 M 个 训练 样本 的 交叉 精 的 平均 : 


人 (7.43 ) 


全 体 训练 样本 的 平均 交叉 炉 可 以 视 为 交叉 炉 的 样本 均值 , 它 是 交叉 炉 的 期 望 的 无 偏 估计 , 而 
单个 训练 样本 的 交叉 粹 也 是 交叉 信 的 期 望 的 无 偏 估计 , 所 以 每 次 使 用 一 个 样本 ,同样 是 用 交叉 焙 
的 期 望 的 无 偏 估计 来 训练 网 络 。 由 于 每 次 估计 只 用 一 个 样本 ， 这 就 引入 了 较 大 的 随机 性 ， 此 方法 
被 称 为 随机 梯度 下 降 ( stochastic gradient descent )。 
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算法 内 层 循环 也 可 以 一 次 取 多 个 训练 样本 ,例如 bp 个 ， 计 算 它们 的 平均 交叉 人 对 权 值 和 偏 置 
的 梯度 ， 并 执行 梯度 下 降 。 因 为 平均 值 的 梯度 等 于 梯度 的 平均 值 ， 于 是 有 : 


V 仁 CU br=1K|x®, y®)) = Ho VL(WE=1K, br=1K|xD, yGD) ( 7.44 ) 


所 以 可 以 计算 这 b 个 训练 样本 的 梯度 ， 再 求 这 些 梯度 的 平均 ， 用 平均 梯度 更 新 权 值 和 向 量 。 
这 个 方法 称 为 Mini Batch， 它 相当 于 用 b 个 样本 估计 交叉 炉 的 期 望 。 一 批 p 个 训练 样本 称 为 一 个 
batch， 直 到 全 部 训练 样本 用 完 ， 则 完成 了 一 个 epoch。 如 果 b = M， 那么 一 个 batch 包含 全 部 训练 
样本 , 这 就 是 普通 梯度 下 降 ; 如 果 b = 1， 即 每 次 使 用 一 个 训练 样本 ,这 就 是 随机 梯度 下 降 。Mini 
Batch 是 二 者 的 折 中 。 


7.3 ”相关 问题 

本 节 讨 论 与 训练 多 层 全 连接 神经 网 络 有 关 的 几 个 问题 ,包括 计算 量 、 梯 度 消失 、 正 则 化 、 权 
值 初始 化 以 及 提前 停止 。 从 这 些 问题 中 , 我 们 能 看 到 深层 模型 独 有 的 一 些 特性 ,深度 学 习 主要 就 
是 应 对 这 些 新 的 困难 和 特性 。 


7.3.1 计算 量 
前 向 传播 对 神经 网 络 各 层 计 算 仿 射 映射 : 


ar 一 TVKXk-1 十 区 ， 天 = 于 …, 玖 (7.45) 


如 果 每 层 的 神经 元 数量 大 致 为 N 的 话 ， 式 (7.45 ) 的 时 间 复 杂 度 是 O(N2) 。 整 个 网 络 的 仿 射 
映射 的 时 间 复 杂 度 是 K . 0(N?)。 反 向 传播 阶段 的 计算 也 是 同样 的 时 间 复 杂 度 。 前 向 传播 对 kK 个 神 
经 元 层 的 每 一 层 计算 f(a*): 


& (a¥) ) 
f(a*) = : ,k=1,.,k (7.46) 
f (as,) 
以 Logistic 激活 函数 为 例 : f(x) = 二 x， 这 需要 执行 除法 和 指数 运算 。ReLU 在 这 方面 优势 


明显 ， 它 只 需要 判断 自 变量 x 的 符号 。 反 向 传播 过 程 需 要 对 K 个 神经 元 层 的 每 一 层 计算 f(a”): 


f'(ar) 
f'(a*) = : ,k=1,.,Kk (7.47 ) 
f'(ak,) 
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上 一 章 介绍 激活 函数 时 提 到 ，Logistic 和 Tanh 的 导数 在 已 知 函 数值 的 情况 下 很 容易 计算 ， 免 
去 了 指数 和 除法 运算 ， 这 可 以 大 大 节省 计算 量 。ReLU 的 优势 仍然 明显 ， 计 算 它 的 导数 仍然 只 需 
要 判断 输入 的 符号 。 
7.3.2 ”梯度 消失 
反问 传播 阶段 计算 每 一 层 的 仿 射 值 偏 导 数 向 量 : 
A = ArtiWrt1idiag(f’(a*)), k=1,.…,K—1 (7.48 ) 


当 输 入 的 绝对 值 较 大 时 ，Logistic 和 Tanh 这 种 双向 饱和 的 激活 函数 的 导数 极 小 ， 所 以 当 神 经 
元 的 仿 射 值 绝 对 值 较 大 时 ， 损 失 值 对 它 的 权 值 和 偏 置 的 偏 导 数 就 极 小 ， 这 种 情况 称 为 梯度 消失 。 
发 生 梯度 消失 时 ， 神 经 元 的 训练 将 极为 缓慢 。 


ReLU 是 单 向 饱和 的 ， 它 在 正 侧 的 导数 恒 为 1， 避 免 了 梯度 消失 问题 。 但 ReLU 在 负 侧 的 导 
数 为 0, 当 ReLU 神经 元 的 仿 射 值 为 负 时 , 在 本 轮 迭 代 中 它 将 得 不 到 训练 。Leaky ReLU 和 PReLU 
规避 了 负 侧 导数 为 0 的 问题 。SoftPlus 也 具备 ReLU 的 优势 ， 但 是 它 和 它 的 导数 的 计算 比 ReLU 


复杂 。 


7.3.3 正则 化 
训练 神经 网 络 也 可 以 应 用 5; 或 6 正则 化 。£2 正 则 化 的 惩罚 项 是 :; 

Ls(w) =3 wl = 3wrw (7.49 ) 
其 中 ，w 是 所 有 权 值 和 偏 置 构成 的 向 量 ，4 是 正则 化 强度 。 在 神经 网 络 领域 ，C2z 正 则 化 又 称 为 权 
直 误 减 《weightdecay )。 正 则 化 强度 越 大 ， 则 对 参数 绝对 值 的 惩罚 越 大 ， 优 化 越 倾向 于 找到 绝对 
直 较 小 的 参数 值 。 绝 对 值 较 小 的 参数 值 导致 绝对 值 较 小 的 仿 射 值 ,对 Logistic 或 Tanh 来 说 ， 当 输 
入 靠近 0 时 ,它们 近似 于 线性 函数 ， 所 以 强 C 正 则 化 使 神经 网 络 更 接近 线性 模型 。 线 性 模型 的 自 
由 度 较 小 ， 强 £2 正则 化 降低 神经 网 络 的 自由 度 ， 导 致 高 偏 置 低 方差 ， 防 止 过 拟 合 。 


7.3.4” 权 值 初始 化 


训练 神经 网 络 的 第 一 步 就 是 随机 初始 化 权 值 和 偏 置 , 权 值 和 偏 置 的 初始 值 应 该 取 接 近 0 的 随 
机 值 。 上 文 说 过 ,接近 0 的 权 值 和 偏 置 使 神经 网 络 接近 线性 模型 ， 所 以 接近 0 的 初始 值 使 训练 过 
程 从 接近 线性 模型 开始 , 逐步 将 神经 网 络 调整 为 非 线性 模型 ， 于 是 训练 过 程 就 是 一 个 提高 模型 自 
由 度 的 过 程 ， 神 经 网 络 的 分 界面 从 近似 超 平面 逐步 变化 为 复杂 的 非 线性 分 界面 。 
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一 般 可 用 均匀 分 布 (uniform distribution ) 或 方差 较 小 的 正 态 分 布 来 初始 化 权 值 和 偏 置 。 有 一 
些 考虑 神经 元 输入 维 数 和 层 内 神经 元 数量 的 初始 化 方法 ,它们 有 助 于 避免 不 收敛 并 加 速 收敛 , 后 
文 介绍 深度 学 习 时 会 讲解 这 类 初始 化 方法 。 


7.3.5 ”提前 停止 


本 章 介绍 的 训练 算法 预 设 了 epoch 数量 ， 也 可 以 不 预 设 固定 的 epoch 数量 ， 而 是 在 每 一 步 或 
几 步 迭代 后 ,在 独立 的 验证 集 上 观察 交 义 炉 损 失 和 模型 评价 指标 ， 如 正确 率 、 查 准 率 、 查 全 率 和 
AUC 等 ， 当 发 现 验 证 集 上 的 损失 值 或 评价 指标 达到 预期 或 长 时 间 没 有 改善 ， 则 停止 训练 。 


有 一 种 正则 化 方法 叫 作 提 前 停止 (early stop )， 如 果 损 失 值 在 连续 若干 次 迭代 中 没有 下 降 ， 
则 提前 停止 训练 。 具体 的 停止 规则 可 以 不 同 , 参考 的 评价 指标 也 可 以 选择 , 但 凡是 依据 某 种 判断 
而 提前 停止 训练 ， 都 属于 提前 停止 。 提 前 停止 与 £2 正则 化 有 联系 ， 在 全 局 最 小 点 ( 如 果 有 的 话 ) 
w’ 将 损失 函数 二 阶 泰勒 展开 : 


L(w) = COw + =(w —w')TH(w — w’) (7.50) 


全 局 最 小 点 w* 处 的 梯度 是 零 向 量 , 所 以 在 它 附近 的 二 阶 泰勒 展开 没有 一 次 项 。H 是 损失 函数 
在 w* 的 赫 森 和 矩阵。 用 该 二 阶 泰勒 展开 近似 代表 损失 函数 ， 它 在 w 的 梯度 是 : 


VL(w) = Hw — w’) (7.51) 


假设 初始 点 是 w(Y， 它 被 初始 化 为 接近 零 向 量 , 令 梯度 下 降 法 第 t 次 迭代 后 的 点 是 w 中 ， 有 : 
wD = wD -nH(w Dd — w’) (7.52 ) 
将 式 (7.52 ) 变形 : 
woO—w = ( -nH)(w Dd — w’) (7.53) 
假设 赫 森 矩阵 是 正定 的 ， 将 它 谱 分 解 为 YAV， 并 代入 式 (7.53 ): 


V(w® —w’) = (nD)V(weD —w’) (7.54) 


(we —w’)= (nAV(weD — w’) (7.55) 


此 推导 可 以 一 直 进 行 到 wo0) ， 于 是 有 : 
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V(woO—w’)= (nd)'V(wO — w’) (7.56) 
因为 w'0) = 0， 于 是 有 : 


wb = (nA Vw OY) + nA)Vw xs (—(— nA Vw (7.57 ) 


其 中 (一 n4)! 是 : 
(1—n4) 0 
(I —n4): = ( : 可 ) (7.58 ) 
0 ‘(1 nn) 


0,… ,加 是 赫 森 矩阵 HH 的 特征 值 ，n 是 学 习 率 。 若 n 足 够 小 ， 当 六 代 次 数 t 趋 近 于 无 穷 时 ， 
(I 一 n4): 趋 近 于 零 和 矩阵，Vw(0 趋 近 于 Vw*， 即 : 


lim: so WO = limy so VIVwWO = VT im so Vw = VIVw’ = (7.59) 


这 就 是 梯度 下 降 法 逼近 全 局 最 优 解 的 过 程 。 如 果 为 损失 函数 加 上 2z 正 则 项 : 


L(w) = LWw) +iw —w) Hw- w')+Tiwiw (7.60) 
求 L(w) 的 驻 点 得 到 : 
w= (H+AD-1Hw’ (7.61) 
将 HH 的 谱 分 解 代入 式 (7.61 )， 得 到 : 


w= (VIAV +AVIV) VIAVw’ = VTi(A + AD- tAVw’ (7.62) 


1 0 
(4+AD -1A4=| : 1% : (7.63 ) 
0 Pe 


AN+A 


其 中 (4 + 40D-14 是 : 


当 正 则 化 强度 4 趋 近 于 无 穷 时 ，(4 + 4D7-14 趋 近 于 零 矩 阵 ，w 趋 近 于 零 向 量 ， 当 4 趋 近 于 0 
时 ，(4 + 4D-14 趋 近 于 单位 矩阵 ，w 趋 近 于 w*。 这 就 是 正则 化 强度 4 对 解 的 控制 。 


可 见 52 正 则 化 强度 4 的 作用 与 梯度 下 降 迭 代 次 数 t 的 作用 相反 ,，t 越 大 或 4 越 小 , 算法 解 越 接近 
全 局 最 优 解 ，t 越 小 或 4 越 大 , 算法 解 越 接近 原点 。 提 前 停止 也 是 对 搜索 过 程 的 一 种 约束 , 停止 越 
早 则 约束 越 强 ， 算法 解 离 原 点 越 近 。 提 前 停止 与 62 正则 化 的 联系 如 图 7-4 所 示 。 
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£2 正则 化 


提前 停止 


oe 150 


图 7-4 ”提前 停止 与 2 正则 化 的 联系 


7.4 多 层 全 连接 神经 网 络 的 Python 实现 


本 节 我 们 实现 多 层 全 连接 神经 网 络 , 训练 方法 是 反 向 传播 加 Adam 算 法。 为 了 清晰 展现 反 向 
传播 和 参数 更 新 的 过 程 ,我们 没有 使 用 第 3 章 的 优化 器 类 ,而 是 将 Adam 算法 硬 编码 在 循环 体 中 ， 


代码 如 下 : 


import numpy as np 


class NeuralNetwork: 


def init (self, shape, activations, learning rate = 0.005, iterations = 8000， 
minibatch size = 32, beta 1 = 0.9, beta 2 = 0.99): 


if not len(shape) == len(activations): 
raise Exception(" 激 活 汐 数 名 称 数组 必须 等 于 层 数 。") 


# Shape 数组 是 每 层 的 神经 元 数量 ， 最 后 一 层 是 输出 层 ， 其 神经 元 数量 必须 与 问题 类 别 数 一 致 


self.shape = shape 
# shape 数组 的 长 度 为 神经 网 络 的 深度 
self.depth = len(self.shape) 
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# 保存 各 层 的 输出 值 以 及 局 部 误差 的 数组 
self.outputs = [0] * (self.depth + 1) 
self.deltas = [0] * self.depth 


self.learning rate = learning rate # 学 习 率 
self.iterations = iterations # 迁 代 数量 


# 每 次 迭代 取 minibatch size 个 样本 为 一 批 (mini batch) 
# 计算 这 批 样 本 的 平均 交叉 粒 的 梯度 。 顺 序 取 完 所 有 训练 样本 后 ， 从 头 再 来 


self.minibatch size = minibatch size 


# Adam 算法 的 两 个 超 参 
self.beta 1 = beta 1 
self.beta 2 = beta 2 


# activations 数组 包含 各 层 激活 函数 的 名 称 

# 输出 层 直 接连 SoftMax， 所 以 最 后 一 层 的 激活 函数 应 设 为 恒 等 函 数 "idendity” 
self.activations = activations 

self.activation func = [] 

self.activation func diff = [] 


for f in activations: 


f = f.lower() 
if f == "logistic": 
self.activation func.append(self.1logistic) 
self.activation func diff.append(self.logistic diff) 
elif f == "identity": 
self.activation func.append(self.identity) 
self.activation func diff.append(self.identity diff) 
el > el 
self.activation func.append(self.relu) 
self.activation func diff.append(self.relu diff) 
elif f == "tanh": 
self.activation func.append(self.tanh) 
self.activation func diff.append(self.tanh diff) 
else: 
raise Exception(" 不 支持 的 激活 函数 : {:5}".format(f)) 


# 保存 各 层 权 值 矩 阵 和 偏 置 向 量 的 数组 
self.weights = [0] * self.depth 
self.biases = [0] * self.depth 


# 在 未 提供 训练 数据 时 ， 输 入 层 的 权 值 矩阵 的 尺寸 未 知 
# 故 在 这 里 只 初始 化 非 输入 层 的 权 值 矩阵 和 偏 置 向 量 
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self.input weights initialized = False 
for idx in np.arange(1, self.depth): 

# 权 值 以 0 均值 、0.001 标准 差 的 正 态 分 布 初始 化 
self.weights[idx] = np.mat(np.random.normal(0, 0.001, 
size=(self.shape[idx]，self.shape[idx - 1]))) 

# 偏 置 向 量 以 0 值 初始 化 
self.biases[idx] = np.mat(np.zeros((self.shape[idx], 1))) 


# 保存 Adam 算法 用 到 的 累积 梯度 一 阶 算 和 二 阶 和 矩 的 数组 
self.weights v = [0] * self.depth 
self.weights s = [0] * self.depth 


self.biases v = [0] * self.depth 
self.biases s = [0] * self.depth 


NeuralNetwork 类 封装 了 我 们 的 多 层 全 连接 神经 网 络 实现 。 构 造 方法 接受 shape 参数 ， 它 是 
一 个 整数 数组 ， 它 的 元 素 是 每 层 的 神经 元 数量 。shape 的 最 后 一 个 元 素 是 输出 层 的 神经 元 数量 ， 
它 必须 等 于 问题 的 类 别 数 。shape 的 长 度 就 是 网 络 的 深度 。activations 参数 是 与 shape 相同 长 
度 的 数组 , 元 素 是 相应 层 采用 的 激活 函数 , 比如 relu、logistic。 最 后 一 层 后 接 SoftMax 函数 ， 
所 以 这 一 层 不 施加 激活 函数 ， 应 采用 恒 等 函 数 identity。learning_rate 参数 是 学 习 率 ， 默 认 值 
0.005。iterations 参数 是 迭代 次 数 ， 默 认 值 8000。minibatch_size 参数 是 一 个 Mini Batch 包含 
的 样本 数量 ， 默 认 值 为 32。beta_ 1 和 beta 2 是 Adam 算 法 的 两 个 超 参数 ， 取 经 典 默 认 值 。 构 造 
函数 初始 化 保存 临时 信息 的 数组 ,构造 各 层 的 激活 函数 并 初始 化 ( 除 输入 层 之 外 ) 的 权 值 矩阵 和 
偏 置 向 量 。 


在 构造 函数 之 后 ， 我 们 定义 并 实现 NeuralNetwork 类 的 成 员 方 法 ， 首 先 实现 多 层 全 连接 神经 
网 络 的 前 向 传播 过 程 。 前 向 传播 以 样本 为 输入 ,交替 计算 各 层 的 仿 射 映 射 和 激活 函数 , 将 网 络 最 
后 一 层 的 仿 射 映射 值 提交 给 SoftMax 函数 ， 得 到 多 分 类 概率 分 布 ， 代 码 如 下 : 


def compute(self, x): 
X 为 n_ features * n_ samples 矩阵 ， 每 列 为 一 个 样本 
本 函数 计算 神经 网 络 对 这 批 样本 的 输出 
result = x 
for idx in np.arange(0, self.depth): 
self.outputs[idx] = result 
# 对 上 一 层 的 输出 计算 仿 射 值 
al = self.weights[idx] * result + self.biases[idx] 
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de 


# 对 仿 射 值 施加 激活 隙 数 
result = np.mat(self.activation func[idx](al)) 


self.outputs[self.depth] = result 
return self.softmax(result) 


predict(self, x): 
Xx 为 n_samples * n_features 矩阵 ， 每 行为 一 个 样本 
本 函数 仅仅 是 对 compute 函数 的 简单 封装 ， 供 使 用 者 执行 预测 之 用 


mn 


if not x.shape[0] or not x.shape[1]: 
raise Exception(" 数 据 为 空 。") 


return self.compute(x.T).T.A 


compute 方法 接受 包含 一 批 样本 的 矩阵， 每 列 是 一 个 样本 。 它 执行 前 向 传播 ， 计 算 网 络 对 这 
批 样本 的 输出 。predict 方法 是 compute 方法 的 简单 封装 ， 它 调整 输入 和 输出 的 形状 。 


接 下 来 ,我们 实现 反 向 传播 和 参数 更 新 。 反 向 传播 方法 接受 交叉 焙 损 失 对 输出 层 仿 射 值 的 偶 


导数 行 向 量 , 反 向 计算 各 层 仿 射 值 的 偏 导数 行 向 量 。 参数 更 新 方法 利用 反 向 传播 得 到 的 仿 射 值 偏 


导数 来 计算 各 层 权 值 矩 阵 和 偏 置 向 量 的 偏 导数 ， 并 用 这 些 偏 导数 更 新 网 络 参数 ， 代 码 如 下 : 


def bp(self, d): 


de 


i 


mn 


反 向 传播 


mn 


tmp = d.T 


for idx in np.arange(0, self.depth)[::-1]: 
delta = np.multiply(tmp, self.activation func diff[idx](self.outputs[idx + 1]).T) 
self.deltas[idx] = delta 
tmp = delta * self.weights[idx] 


update(self) : 


mn 


运用 Adam 算法 更 新 权 值 矩 阵 和 偏 置 向 量 


mn 


for idx in np.arange(0, self.depth): 
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weights grad = self.deltas[idx].T * self.outputs[idx].T / self.deltas[idx].shape[o] 
biases grad = np.mean(self.deltas[idx].T, axis=1) 


# 累积 权 值 矩阵 的 梯度 的 一 阶 和 三 阶 答 
self.weights v[idx] = self.beta 1 * self.weights v[idx] + (1 - self.beta 1) * weights grad 
self.weights s[idx] = self.beta 2 * self.weights s[idx] + (1 - self.beta 2) * 

np.power (weights grad, 2) 


# 累积 偏 置 向 量 的 梯度 的 一 阶 和 二 阶 纸 
self.biases v[idx] = self.beta 1 * self.biases v[idx] + (1 - self.beta 1) * biases grad 
self.biases s[idx] = self.beta 2 * self.biases s[idx] + (1 - self.beta 2) * 

np.power (biases grad, 2) 


# 更 新 权 值 矩阵 和 偏 置 向 量 ， 在 此 我 们 省 略 了 Adam 中 对 一 阶 和 二 阶 和 矩 的 微小 调整 

self.weights[idx] = self.weights[idx] - self.learning rate * self.weights v[idx] / 
np.sqrt(self.weights s[idx] + 1e-10) 

self.biases[idx] = self.biases[idx] - self.learning rate * self.biases v[idx] / 
np.sqrt(self.biases s[idx] + 1e-10) 


bp 方法 接受 输出 层 的 误差 , 执行 反 向 传播 , 计算 损失 函数 对 各 层 权 值 矩 阵 和 偏 置 疝 量 的 偏 导 
数 。 被 反 向 传播 的 各 层 仿 射 值 偏 导数 保存 在 self.deltas 数组 中 。update 方法 利用 self.deltas 
数组 保存 的 偏 导数 更 新 权 值 矩阵 和 偏 置 向 量 ， 该 方法 实现 了 Adam 算法 。 


至 此 ,训练 过 程 用 到 的 各 个 方法 都 已 定义 ， 接 下 来 我 们 实现 训练 方法 。 训 练 方法 只 包含 一 个 
简单 的 循环 体 ， 调 用 之 前 定义 的 各 个 方法 迁 代 地 进行 前 向 传播 、 反 向 传播 以 及 参数 更 新 ， 代 码 
如 下 


def train(self, x, y): 


if not x.shape[0] or not x.shape[1] or x.shape[0] != y.shape[0] or not y.shape[1]: 
raise Exception(" 特 征 矩 阵 与 one hot 标签 矩阵 的 样本 数 不 相同 ， 或 数据 为 空 。") 


# 根据 输入 向 量 的 维 数 初始 化 输入 层 权 值 矩 阵 和 偏 置 向 量 

if not self.input weights initialized: 
self.weights[0] = np.mat(np.random.normal(0, 0.001, size=(self.shape[0], x.shape[1]))) 
self.biases[0] = np.mat(np.zeros((self.shape[0], 1))) 
self.input weights initialized = True 


start = 0 
for i in range(self.iterations): 


# 从 全 体 训练 样本 中 取 下 一 批 
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end = start + self.minibatch size 

minibatch x = x[start:end].T 

minibatch y = y[start:end].T 

start = (start + self.minibatch size) % x.shape[o] 


# 计算 当前 网 络 对 这 批 样本 的 预测 概率 
yp = self.compute(minibatch x) 


# 计算 当前 模型 对 这 批 样本 的 正确 率 

loss = np.mean(-np.sum(np.multiply(minibatch y, np.log(yp + 1e-300)), axis=0)) 

pred = np.argmax(yp，axis=0) # 取 概 率 最 大 的 类 别 为 预测 类 别 

truth = np.argmax(minibatch y, axis=0) 

accuracy = (pred == truth).astype(np.int).sum() / self.minibatch size 

print(" 迭 代 : {:d}， 损失 值 : {:.6f}， 正 确 率 : {:.2f}%".format(i, loss, accuracy * 100)) 


# 误差 
d= yp - minibatch y 


# 误差 的 反 向 传播 
self.bp(d) 


# 更 新 模型 参数 
self.update() 


train 方法 接受 特征 矩阵 和 类 别 标签 的 One-Hot 编码 和 矩阵， 它 的 主 循环 体 共 执 行 iterations 
次 。 每 次 迁 代 , 按 顺序 从 训练 集中 取出 一 批 minibatch_size 个 样本 , 计算 当前 网 络 对 这 批 样本 输 
出 的 概率 ,根据 标签 计算 误差 ,将 误差 反 向 传播 计算 梯度 ,用 梯度 更 新 各 个 权 值 矩阵 和 偏 置 向 量 。 
每 次 欠 代 还 计算 了 当前 网 络 对 这 批 样本 的 平均 交叉 录 和 预测 正确 率 。 


最 后 ， 我 们 实现 几 种 常见 的 激活 函数 以 及 它们 的 导 函 数 。 它 们 以 静态 函数 的 形式 存在 于 
NeuralNetwork 类 中 ， 代 码 如 下 : 


几 种 激活 函数 。 在 本 实现 中 ， 激 活 函 数 的 导 涵 数 接受 的 是 神经 元 的 输出 
因为 logistic、tanh 和 Telu 可 以 用 输出 计算 导数 ， 而 且 还 更 节省 计算 量 
但 是 并 非 所 有 激活 函数 都 可 以 用 输出 计算 导数 
@staticmethod 
def logistic(x): 
return 1.0 / (1.0 + np.power(np.e, np.where(-x > 1e2, 1e2, -x))) 


@staticmethod 
def logistic diff(x): 
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return np.multiply(x, (1 - x)) 


@staticmethod 
def relu(x): 
return np.where(x > 0, x,0.0) 


@staticmethod 
def relu diff(x): 
return np.where(x > 0，1.0，0.0) 


@staticmethod 
def identity(x): 
return x 


@staticmethod 
def identity diff(x): 
return np.ones(x.shape) 


@staticmethod 
def tanh(x): 
exp = 2 * np.where(x > 1e2, 1e2, x) 
return (np.power(np.e, exp) - 1) / (np.power(np.e, exp) + 1) 


@staticmethod 
def tanh diff(x): 
return 1 - np.multiply(x, x) 


@staticmethod 
def softmax(x): 
x[x > 1e2] = 1e2 
ep = np.power(np.e, x) 
return ep / np.sum(ep, axis=0) 


现在 我 们 将 NeuralNetwork 类 用 于 乌 类 和 牛 态 类 群 问题 ， 这 次 我 们 对 6 个 类 别 进行 分 类 ， 代 码 
如 下 : 


import pandas as pd 

import numpy as np 

from mlp import NeuralNetwork 

from sklearn.metrics import accuracy score, classification report 

from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler 


bird = pd.read csv("bird.csv").dropna().drop("id", axis=1) 
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# 先 将 6 个 类 别 的 字符 囊 名 称 编码 成 整数 编号 ， 再 转化 成 6 个 1/0 值 的 one hot 编码 
label encoder = LabelEncoder() 

one hot label 
OneHotEncoder(sparse=False).fit transform(label encoder.fit transform(bird.type).reshape(-1, 1)) 


# 去 掉 类 别 的 字符 串 名 称 列 
bird.drop("type", axis=1, inplace=True) 


# 将 10 个 数值 型 特征 列 与 6 个 类 别 标签 one hot 编码 列 合并 起 来 
data = np.c [bird.values, one hot label] 


# 将 样本 随机 洗 牌 
np.random.shuffle(data) 


# 前 300 个 样本 作为 训练 集 ， 将 特征 与 one hot 编码 分 开 
ss = StandardScaler() 

train x = ss.fit transform(np.mat(data[:300,:-6])) 
train y = np.mat(data[:300,-6:]) 


# 其 余 样 本 作为 测试 集 ， 将 特征 与 one hot 编码 分 开 
test x = ss.transform(np.mat(data[300:,:-6])) 
test y = np.mat(data[300:,-6:]) 


# 构造 2 隐藏 层 ， 每 个 隐藏 层 包 含 20 个 神经 元 的 全 连接 神经 网 络 ， 隐 藏 层 的 激活 函数 为 ReLU 
lr = NeuralNetwork([20, 20, 6], ["relu", "relu", "identity"]) 


# 在 训练 集 上 训练 网 络 
lr.train(train x, train y) 


# 预测 测试 集 样本 的 分 类 概率 
p = lr.predict(test x) # 模型 对 6 个 类 别 预测 的 概率 


# 取 概 率 最 大 的 类 别 为 预测 类 别 

pred = [label encoder.classes [idx] for idx in np.argmax(p, axis=1)] 

truth = [label encoder.classes [idx] for idx in np.argmax(test y, axis=1).A1] 
accuracy = accuracy score(truth, pred) 


piint(" 正 确 率 : {:.2f}%".format(accuracy * 100)) 
print(classification report(truth, pred)) 


我 们 使 用 了 scikit-learn 库 的 LabelEncoder 类 和 0neHotEncoder 类 。LabelEncoder 将 字符 串 的 
类 别 标签 ,如 SW 、R, 编 码 成 从 0 开始 的 整数 编号 OneHotEncoder 类 再 将 整数 编号 编码 成 One-Hot 
癌 量 。 经 过 这 两 步 处 理 , 就 得 到 了 一 个 “样本 数 x 6” 的 和 矩阵, 每 一 行 是 一 个 样本 的 类 别 One-Hot 
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编码 向 量 。 将 这 个 矩阵 连接 在 10 列 特征 之 后 ， 得 到 “样本 数 x 16” 的 矩阵 ， 前 10 列 是 特征 ， 后 
6 列 是 类 别 One-Hot 编码 。 


将 样本 随机 洗 牌 后 ， 取 前 300 个 样本 为 训练 集 ， 其 余 样本 为 测试 集 。 这 里 我 们 对 特征 进行 了 
标准 化 处 理 ， 即 对 每 一 个 特征 ， 减 去 样本 均值 并 除 以 样本 标准 差 。 我 们 用 scikit-learn 库 的 
Standardscaler 类 完成 此 操作 。 注 意 ， 应 该 在 训练 集 上 计算 样本 均值 和 标准 差 ， 并 用 它们 标准 化 
训练 集 样 本 以 及 测试 集 样本 。 


接 下 来 我 们 构造 了 一 个 NeuralNetwork 对 象 ，shape 参数 为 [20，20，6] ， 所 以 我 们 构造 的 是 
一 个 3 层 全 连接 神经 网 络 ， 两 个 隐藏 层 各 有 20 个 神经 元 ， 输 出 层 有 6 个 神经 元 ， 对 应 问题 的 6 
个 类 别 。Activations 参数 为 [ "relu"，"relu"，"identity"] ， 表 示 两 个 隐藏 层 的 激活 函数 是 ReLU ， 
输出 层 的 激活 函数 是 恒 等 函 数 。 以 训练 集 样 本 和 标签 调用 train 方法 , 会 看 到 损失 值 下 降 而 正确 
率 上 升 的 训练 过 程 。 


训练 完成 后 ， 将 测试 集 样本 送 给 NeuralNetwork 对 象 的 predict 函数 ， 得 到 神经 网 络 对 测试 
集 样 本 的 预测 概率 ， 取 概率 最 大 的 类 别 作为 神经 网 络 对 样本 的 预测 类 别 。LabelEncoder 对 象 中 保 
存 着 类 别 整数 编码 与 类 别名 称 的 对 应 关系 , 用 这 个 对 应 关系 将 整数 编码 翻译 回 字 符 串 名 称 , 这 个 
申 经 网 络 对 6 个 类 别 的 分 类 指标 如 表 7-1 所 示 。 
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表 7-1 6 个 类 别 的 分 类 指标 


查 准 率 查 全 率 f1- 得 分 样 本 数 

了 0.91 0.77 0.83 13 

及 0.86 0.92 0.89 13 

SO 0.92 0.95 0.93 37 

SW 0.91 0.91 0.91 35 

T 0.33 1.00 0.50 1 

W 0.83 0.71 0.77 14 

avg / total 0.89 0.88 0.89 113 


7.5 小 结 


在 人 工 智能 时 代 , 反 向 传播 算法 可 谓 大 名 时 上 易 ， 目 前 它 仍 是 最 重要 的 神经 网 络 训练 算法 。 本 
章 详 细 讲 解 了 反 向 传播 算法 的 原理 和 实现 。 从 某 个 视角 说 , 反 向 传播 利用 链 式 法 则 求 各 个 神经 元 
的 权 值 和 偏 置 的 偏 导数 , 从 另 一 个 视角 说 , 反 向 传播 将 误差 逐 层 分 配给 神经 网 络 的 每 一 个 神经 元 。 
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通过 本 章 的 讲解 ， 读 者 应 该 对 反 向 传播 算法 有 了 比较 透彻 的 理解 。 


但 是 , 本 章 描述 的 反 向 传播 对 于 非 多 层 全 连接 的 神 


经 网 络 不 再 适用 , 例如 深度 学 习 中 出 现 的 


那些 网 络 。 本 章 描 述 的 反 向 传播 只 是 计算 图 自动 求 导 的 一 个 特例 。 计算 图 自动 求 导 是 更 通用 的 反 


向 传播 ， 它 是 通 向 深度 学 习 自 由 王国 必 经 之 路 的 一 把 24K 金 钥 是 。 掌 握 了 计算 图 自动 求 导 ， 就 
能 理解 任何 复杂 网 络 的 计算 和 训练 ， 配 合 诸如 TensorFlow 等 工具 框架 ， 可 以 随心 所 欲 地 构造 和 
训练 自己 设计 的 网 络 结构 。 我 们 将 在 下 一 章 介绍 计算 图 和 自动 求 导 。 
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计 自 恬 


神经 网 络 的 结构 并 不 仅 限于 多 层 全 连接 ， 在 深度 学 习 领 域 , 存在 局 部 连接 、 权 值 共享 、 跳 由 
连接 等 


F 富 多 样 的 神经 元 连接 方式 , 多 层 全 连接 仅仅 是 其 中 的 一 种 。 在 打开 更 广阔 的 新 世界 的 大 
门 之 前 ， 我 们 首先 需要 掌握 描述 和 训练 任意 神经 网 络 的 方法 。 


计算 图 是 一 个 强大 的 工具 , 绝 大 部 分 神经 网 络 都 可 以 用 计算 图 描述 。 计 算 图 用 节点 表示 变量 ， 

用 有 向 边 表示 计算 。 自 动 求 导 应 用 链 式 法 则 求 某 节点 对 其 他 节点 的 雅 可 比 和 矩阵, 它 从 结果 节点 开 

台 ， 治 着 计算 路 径 向 前 追溯 ,， 逐 节点 计算 雅克 比 。 将 神经 网 络 和 损失 函数 连接 成 一 个 计算 图 ， 则 

它 的 输入 、 输 出 和 参数 都 是 节点 ,可 利用 自动 求 导 求 损 失 值 对 网 络 参数 的 雅克 比 ,从 而 得 到 梯度 。 
本 曹 首 先 介绍 计算 


图 , 并 以 多 层 全 连接 神经 网 络 和 一 种 非 全 连接 网 络 为 例 , 展示 计算 图 的 表 
达能 力 ,之 后 ,我 们 介绍 自动 求 导 的 原理 和 实现 。 具 备 了 这 些 知 识 ， 就 能 理解 如 何 构建 和 训练 任 
意 神 经 网 络 ， 为 进入 深度 学 习 领 域 做 好 准备 


[e) 


8.1 计算 图 模型 


我 们 需要 一 种 灵活 通用 的 方法 描述 各 种 神经 网 络 , 计算 图 就 是 一 种 合适 的 工具 。 本 节 首 先 介 
绍 计算 图 的 基本 概念 , 之 后 阐述 如 何 用 计算 图 描述 多 层 全 连接 神经 网 络 以 及 一 个 简单 的 卷 积 神经 
网 络 。 


8.1.1 简介 


计算 图 (computational graph ) 是 一 种 有 向 无 环 图 ( directed acyclic graph，DAG )。 计 算 图 用 


节点 表示 变量 ， 用 有 向 边 ( directed edge ) 表示 计算 。 有 向 边 的 目的 节点 称 为 子 节点 ， 源 节点 称 
为 父 节 点 ， 计 算 图 定义 如 何 用 父 节 点 计算 子 季 点 ， 如 图 8-1 所 示 。 
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图 8-1 计算 图 的 节点 和 有 向 边 
图 8-1 中 的 计算 图 描述 了 计算 : 


y= 2x (8.1) 
一 个 子 节点 可 以 有 两 个 父 节 点 ， 表 示 该 子 节 点 由 两 个 父 节 点 计算 而 得 ， 如 图 8-2 所 示 。 
NN 
| z | 
+ 
a eu 
-到 SR 这 


图 8-2 ”有 两 个 父 节 点 的 子 节 点 


图 8-2 中 的 计算 图 描述 的 计算 是 : 


Z 一 X 十 y (8.2 ) 


一 个 子 节点 也 可 以 有 两 个 以 上 的 父 节 点 , 但 是 这 种 情况 可 以 通过 添加 中 间 节 点 而 转化 成 每 个 
子 节点 只 有 两 个 父 届 点 的 情况 。 图 8-3 中 的 两 个 计算 图 是 等 价 的 。 


图 8-3 ”两 个 以 上 父 节 点 可 以 转化 成 两 个 父 节点 
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8-3 中 的 两 个 计算 图 描述 的 计算 都 是 : 


w=XxX+y+t+z2z (8.3) 


所 以 本 书 中 ,每 个 子 节 点 至 多 有 两 个 父 节点 。 用 上 述 简单 的 组 件 可 以 表达 复杂 的 计算 ,例如 
8-4 所 示 。 


Logistic 


图 8-4 逻辑 回归 的 计算 图 


8-4 中 的 计算 图 表示 逻辑 回归 模型 : 


a 
六 三 1+e—(W1X1+wW2X2+w3xX3+b) ( 8.4 ) 8 


同一 个 计算 可 以 用 不 同 的 计算 图 描述 。 计 算式 可 以 代数 变形 这 自 不 必 说 , 即便 是 同一 个 式 子 
也 可 以 用 不 同 的 计算 图 描述 ,这 取决 于 表示 计算 的 “粒度 ”。 例如 图 8-4 中 ， 从 ue 节点 得 到 y 节 点 
的 计算 是 Logistic 函数 ， 但 也 可 以 将 Logistic 函数 拆 解 成 更 基础 的 计算 ， 如 图 8-5 所 示 。 
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图 8-5 将 Logistic 函数 拆 解 成 更 基础 的 计算 


8-5 中 的 计算 图 只 包含 取 反 、 指 数 、 增 1 和 取 倒 数 这 四 种 基础 运算 ， 它 表示 的 是 Logistic 
函数 ,用 更 基础 的 运算 构建 计算 图 ,会 使 计算 图 的 规模 更 大 ,以 上 介绍 的 计算 图 的 节点 都 是 标量 ， 
节点 也 可 以 是 向 量 、 和 矩阵 力 至 张 量 ( tensor ), 可 将 矩阵 或 张 量 的 元 素 重新 排列 为 向 量 , 例如 矩阵 : 


X11 ”MX1m 
*-( | ~“ 7 (8.5 ) 
Xm1 Xmn 


XxX=| : (8.6) 


Xmn 


向 量 x 是 将 X 的 各 行 排 成 一 列 , 它 的 维 数 是 mn。 对 和 矩 阵 或 张 量 的 计算 无 非 是 对 其 元 素 的 计算 ， 
所 以 它们 都 可 以 转化 成 对 向 量 的 计算 。 知 计算 的 结果 是 矩阵 或 张 量 ,也 可 以 将 其 排列 成 向 量 。 所 
以 本 书 讨论 的 计算 图 的 节点 都 是 向 量 或 标量 。 使 用 向 量 节 点 ,逻辑 回归 模型 可 以 表示 为 图 8-6 中 
的 计算 图 。 
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Logistic 


图 8-6 节点 为 向 量 的 逻辑 回归 模型 计算 图 


8-6 中 的 x 和 w 是 向 量 ， 用 它们 得 到 标量 节点 wi 的 运算 是 内 积 。 知 计算 图 有 多 个 输入 节点 ， 
即 该 计算 图 接受 多 个 输入 向 量 , 可 将 这 些 向 量 连 在 一 起 视 为 一 个 输入 向 量 。 整 个 计算 图 本 质 上 是 
一 个 映射 : 由 输入 向 量 得 到 输出 向 量 。 每 个 节点 和 它 的 父 节点 构成 计算 图 的 一 个 子 计算 图 , 它 也 
是 一 个 映射 。 

如 果 计 算 图 有 多 个 输入 节点 ,可 将 其 中 一 部 分 和 输入 节点 视 为 变量 , 将 其 他 输入 节点 视 为 常量 。 
例如 图 8-6 中 的 逻辑 回归 计算 图 ， 预 测 时 将 w 和 b 视 为 常量 ,将 x 视 为 变量 ; 训练 时 则 将 x 视 为 常 
量 ,将 w 和 b 视 为 变量 。 


8.1.2 多 层 全 连接 神经 网 络 的 计算 图 


上 一 章 出 现 的 多 层 全 连接 神经 网 络 示意 图 就 是 一 个 计算 图 , 它 的 节点 都 是 标量 , 表示 计算 的 
粒度 较 细 。 现 在 我 们 可 以 用 向 量 节 点 更 简洁 地 表示 多 层 全 连接 神经 网 络 ， 如 图 8-7 所 示 。 


f "(x ) 成 于 《3 SoftMax Pp ) 
* 


输入 向 量 


第 1 层 第 K 层 输出 层 ) 输出 概率 


图 8-7 用 向 量 节 点 计算 图 表示 多 层 全 连接 神经 网 络 
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V“ 是 权 值 矩阵 ,， p* 是 偏 置 向 量 。 将 输入 x*-! 与 权 值 算 阵 W* 相 乘 , 得 到 向 量 w*, 将 wr 与 p* 相 
加 得 到 仿 射 值 向 量 a*， 对 a* 的 每 个 分 量 施加 激活 孙 数 1， 得 到 该 神经 元 层 的 输出 x*。 输 出 层 不 对 
仿 射 值 向 量 a* 施 加 激活 函数 ， 而 是 施加 SoftMax 函数 ， 得 到 多 分 类 概率 向 量 p。 


8.1.3 ”其 他 神经 网 络 结构 的 计算 图 
计算 图 可 以 灵活 地 表达 各 种 复杂 的 神经 网 络 ,本 节 举 一 个 例子 ,请 看 图 8-8 所 示 的 神经 网 络 。 


> > p! 
ce] 
© 
总 
”~ 
> > p2 


图 8-8” 非 全 连接 结构 的 神经 网 络 


这 个 神经 网 络 的 输入 是 zu x2,…,x9。 将 输入 排 成 3 x3 的 阵列 , 该 阵列 包含 4 个 2x2 的 子 阵 
列 , 将 每 个 子 阵 列 的 输入 加 权 求 和 再 加 偏 置 得 到 仿 射 值 。 这 4 个 仿 射 单元 使 用 同一 套 权 值 和 偏 置 
( 图 中 没有 画 出 )。 对 4 个 仿 射 值 施加 激活 函数 f， 然 后 连接 到 两 个 仿 射 单元 。 对 这 两 个 仿 射 单元 
的 输出 施加 SoftMax 函数 ,得 到 两 个 概率 p!1 和 p?。 后 文 会 知道 ,这 个 神经 网 络 就 是 一 个 卷 积 层 加 
一 个 全 连接 层 的 卷 积 神经 网 络 。 用 和 矩阵 运算 来 表示 该 神经 网 络 的 计算 : 


(p1,p?) = SoftMax (f (Wix4 * D1 SixoxoxiCixa +b (111,D))- Wiz + bixz) (87) 


式 (8.7 ) 中 的 W342 是 全 连接 层 的 权 值 矩 了 泗 ， 每 一 列 是 一 个 神经 元 的 权 值 向 量 。b1xs 是 全 连 
接 层 的 偏 置 行 向 量 ， 每 个 分 量 是 一 个 神经 元 的 偏 置 。b 是 卷 积 层 的 4 个 仿 射 单元 共同 的 偏 置 ， 它 
乘 上 和 矩阵 (1,1,1,1) 得 到 (b, b,b,b)。Wix4 是 卷 积 层 的 4 个 仿 射 单元 共同 的 权 值 矩阵 (wi, wl, wi, wi)。 
xox1 是 由 9 个 输入 构成 的 列 向 量 。5io 是 4 个 选择 和 矩阵， 它们 负责 为 卷 积 层 的 每 个 仿 射 单元 选择 
适当 的 输入 ,例如 : 
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1 0 0 0 0 0 0 0 0 
1 J_[0 1 0 0 0 0 0 0 0 
she 0010000 ; (8.8) 
0 0 0 0 1 0 0 0 0 
行 向 量 Cix4 的 第 ;分 量 是 1， 其 余 分 量 是 0， 例 如; 
Cixa (1,0,0,0) ( 8.9 ) 
于 是 容易 验证 : 
X 0 0 0 
1 1 _[x2 0 0 0 
S4xoXC1ix4 = x 0 0 0 ( 8.10) 
xs 0 0 0 
所 以 有 : 
X1 MX2 X4 Xs 
4 . X23 Xe 
Di S4xoXox1CIx4 一 说 和 | (8.11 ) 
X5 Xe X8 Xo 


所 以 Wix4 2 S4xoxoxiCixa 十 b: (1,1,1,1) 就 是 卷 积 层 的 4 个 仿 射 单元 的 输出 ,之 后 的 计算 
很 容易 理解 。 式 ( 8.7 ) 的 计算 图 如 图 8-9 所 示 。 


区 
EE 
所 
% 


图 8-9” 卷 积 神经 网 络 的 计算 图 
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由 于 我 们 将 计算 限制 为 矩阵 /向 量 的 加 法 和 乘法 以 及 激活 函数 ， 而 没有 其 他 类 型 的 计算 ， 故 
该 计算 图 稍 复杂 。 如 果 加 入 更 多 的 计算 类 型 ， 则 可 以 更 简洁 地 表示 这 个 卷 积 神经 网 络 , 但 是 这 个 
例子 说 明 计算 图 足以 表达 复杂 的 神经 网 络 。 

8.2 自动 求 导 


对 于 计算 图 中 的 任意 节点 x 和 y， 如 果 存 在 一 条 从 x 到 y 的 有 向 路 径 ， 其 他 节点 都 看 作 常 量 ， 
则 y 可 以 视 为 x 的 映射 ， 如 图 8-10 所 示 。 
ay 


图 8-10 计算 图 中 的 一 条 有 向 路 径 表 示 一 个 映射 


8-10 省 略 了 计算 图 的 其 他 部 分 。 由 x 计算 y 是 一 个 多 重复 合 映射 ， 根 据 链 式 法 则 ，y 对 x 的 
雅 可 比 矩 阵 是 : 


Oy Oy Ouk ou? Ou! 


Ox Ouk uk Du Ox 

式 ( 8.12 ) 中 的 偏 导数 都 是 雅 可 比 和 矩阵 。 如 果 要 计算 y 对 x 在 x* 的 雅 可 比 和 矩阵 , 则 需要 计算 wu 对 

x 在 x 的 雅 可 比 答 阵 加 ，w2 对 ww 在 wi(x*) 的 雅 可 比 和 矩阵 姓 ， 以 此 类 推 。 如 果 结 果 y 是 标量 ， 则 雅 
克 比 矩阵 他 是 一 个 行 向量 ， 是 y 对 x 在 x* 的 梯度 的 转 置 。 


(8.12) 


如 果 一 个 节点 有 多 个 子 节点 ,如 图 8-11 所 示 , 节点 x 经 过 两 个 子 节点 和 w? 计 算出 最 终结 
假设 现在 站 和 由 已 知 ， 该 如 何 计算 人 呢 ? 如 果 妈 是 mm 维 向 量 ， 妇 是 K 维 向 量 ， 可 将 它们 连 在 一 起 


构成 Cn + 有) 维 向 量 u: 


De 的 (8.13 ) 
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图 8-11 一 个 节点 有 多 个 子 节点 


y 对 wu 的 雅 可 比 是 1 x (m + 有 提 矩 阵 : 


yD .oy 网 HEY Wy 
ov 车 Ou 6 a - ( 芝 地) (8.14 ) 
wu 对 x 的 雅 可 比 是 (m +k) x n 和 矩阵 : 
OX1 Oxn 
Ou a OX1 Oxn ba Ox 
| -E| 3 
OX1 Oxn Ox 
OX1 Oxn 
根据 链 式 法 则 ，y 对 x 的 雅 可 比 是 1 x n 和 矩阵 : 
Ou! 
oy oy. (0 Vx .0 .0 
Ox Ou Ox (这 2 加 ou! Ox + Ou? Ox (8.16) 
Ox 
如 果 x 有 两 个 以 上 子 节 点 ， 同 样 可 以 证 明 
Oy ys 0.0w 
Ox i=1loui Ox (8.17) 


这 对 于 自动 求 导 非常 有 利 : 如 果 一 个 节点 有 多 个 子 节 点 , 将 结果 节点 对 这 些 子 节点 的 雅 可 比 
与 这 些 子 节点 对 该 节点 的 雅 可 比 相 乘 再 求 和 ,就 得 到 了 结果 节点 对 该 节点 的 雅克 比 。 有 时 需要 计 
算 y 对 多 个 节点 的 梯度 ， 如 图 8-12 所 示 。 
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8-12 ”计算 节点 对 多 个 上 游 节点 的 梯度 


假设 图 8-12 中 的 x 是 n 维 向 量 ,z 是 m 维 向 量 ,y 是 标量 , 可 将 该 计算 图 视 作 映射 f: R*+™ 一 到。 
可 以 两 次 应 用 式 ( 8.12 ) 分 别 计算 对 x 和 z 的 梯度 ， 但 是 注意 下 式 : 


Oy _ 9y 9u4d 


Bu Pie" Dus 


(8.18) 


式 ( 8.18 ) 会 被 计算 两 次 ， 如 果 将 其 结果 保存 起 来 ， 则 可 以 节省 计算 量 。 这 就 是 自动 求 导 的 
核心 所 在 : 保存 结果 节点 对 计算 路 径 上 各 个 节点 的 雅 可 比 , 并 用 它们 计算 结果 节点 对 更 上 游 节 点 
的 雅 可 比 。 中 间 节 点 的 雅克 比 就 是 上 一 章 中 仿 射 值 偏 导 数 的 推广 ,是 被 “ 反 向 传播 ”的 对 象 。 计 
算 图 自动 求 导 是 广义 的 反 向 传播 。 


8.3 ”自动 求 导 的 实现 


本 节 讨 论 计算 图 自动 求 导 的 实现 ， 我 们 以 面向 对 象 式 的 伪 代 码 来 描述 该 实现 。 节 点 是 对 象 ， 
它 包含 两 个 属性 : value 和 jacobi。value 包含 本 节点 的 值 ， 如 果 本 节点 尚未 被 计算 ， 则 value 
是 NULL。jacobi 包含 结果 节点 对 本 节点 的 雅 可 比 ， 如 果 雅 可 比 尚未 被 计算 ， 则 jacobi 为 NULL。 
节点 有 如 下 方法 。 


D evaluate() 计 算 节 点 的 值 ， 如 果 有 父 节 点 的 值 尚 未 计算 ， 则 抛 出 异常 ; 
口 get_children() 返 回 所 有 子 节 点 ， 若 无 子 节 点 则 返回 空 集 ; 
口 get_parents() 返 回 所 有 父 节点 ， 若 无 父 节 点 则 返回 空 集 ; 
D get_jacobi(v) 接 受 一 个 父 节 点 ， 计 算 本 节点 对 这 个 父 节 点 的 雅 可 比 。 注 意 本 方法 与 
jacobi 属性 的 区 别 ，jacobi 是 结果 节点 对 本 节点 的 雅 可 比 ，get_jacobi(v) 是 计算 并 返回 
本 节点 对 某 个 父 节 点 的 雅 可 比 。 


若 要 计算 某 个 节点 的 值 , 则 它 的 所 有 父 节 点 必须 先 被 计算 。 信息 沿 着 计算 图 路 径 从 前 向 后 传 
播 ， 这 就 相当 于 神经 网 络 的 前 向 传播 。 以 下 forward_propagation 函数 实现 了 计算 某 节 点 值 的 前 
向 传播 过 程 。 
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function forward propagation(v): 
for p in vw.get parents(): 
if p.value is NULL: 
forward propagation(p) 
v.evaluate( ) 
return vw.value 


节点 的 evaluate() 执 行 的 计算 可 以 是 标量 计算 , 算 阵 /向 量 计算 或 者 其 他 更 复杂 的 计算 ,忽略 
各 种 计算 的 差异 ,将 它们 的 时 间 复 杂 度 都 视 为 0(1) , 若 计算 图 有 mn 个 节点 , 则 它 的 时 间 复 杂 度 是 O(m)。 


若 要 计算 某 个 节点 对 它 的 某 个 上 游 节 点 的 雅克 比 , 则 沿 着 计算 图 路 径 从 后 向 前 , 逐 节 点 计算 
结果 节点 对 它们 的 雅克 比 。 在 所 有 子 节点 的 雅克 比 计算 完成 后 ， 父 节点 的 雅克 比 可 用 式 〈8.17 ) 
计算 。 中 间 节 点 的 雅克 比 可 能 会 被 使 用 多 次 ， 将 它们 保存 在 对 象 属性 〈jacobi ) 中 ， 可 避免 重复 
计算 。 以 下 back_propagation 函数 计算 节点 y 对 某 个 上 游 节 点 z 的 雅 可 比 。 


function back propagation(y,v): 
if vw.jacobi is NULL: 

MA We 
v.jacobi = I 

else: 
v.jacobi = 0 #0 为 索 徐 阵 
for c in vw.getchildren(): 

v.jacobi += back propagation(y,c) * c.get jacobi(v) 


return vw.jacobi 

get_jacobi 对 计算 路 径 上 的 每 条 边 执行 一 次 , n 个 节点 的 计算 图 最 多 有 C3 = 如 条 边 ， 如 果 
认为 所 有 get_jacobi 的 时 间 复 杂 度 都 是 0(1)， 则 自动 求 导 的 时 间 复 杂 度 是 0(n?)。 试 想 如果 粗 景 
地 直接 应 用 链 式 法 则 , 则 中 间 节 点 的 雅 可 比 有 可 能 被 重复 计算 多 次 。 反 向 传播 的 本 质 是 以 空间 换 
时 间 ， 将 中 间 节 点 的 雅 可 比 保存 起 来 ， 重 复 使 用 。 父 节点 的 雅 可 比 根据 其 子 节 点 的 雅 可 比 计算 ， 
言 息 沿 着 计算 路 径 向 前 传播 ， 这 就 是 反 向 传播 的 含义 。 


将 自动 求 导 应 用 于 图 8-7 所 示 的 多 层 全 连接 神经 网 络 ， 计 算 交 又 炉 LC 对 各 层 权 值 和 偏 置 向 量 
的 雅克 比 。 首 先 以 第 一 层 权 值 矩 阵 W1 为 例 ， 从 W? 到 £ 的 计算 路 径 非 常 简单 : 


1 K— 


Wi>u >a Xo oOX lo UU oa poL ( 8.19) 


最 后 一 步 是 以 神经 网 络 的 输出 概率 p 和 训练 样本 的 标签 One-Hot 编码 向 量 y 计 算 交 又 炉 L。 这 
是 一 个 稍 复杂 的 计算 , 但 仍 可 以 将 其 视 作 计算 图 的 一 步 。 在 第 7 章 我 们 知道 , 交叉 焙 L 对 SoftMax 
的 输入 向 量 a* 的 雅 可 比 是 : 


yr 
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or _ 6 bp 


A ( 8.20 ) 
第 k 层 的 a* = w* 十 b*， 所 以 : 
aK 
2 = 7 (8.21) 


第 k 层 的 w* = W*x*-1。W* 是 第 k 层 的 权 值 矩 了 泗 ， 有 : 


Ouk 


Fr = WY (8.22 ) 
一 1 层 的 输出 x*-1 = f(a*-1)， 所 以 : 
i Cal 0 
5 区 = diag(f’'(a”-!)) (8.23 ) 
0 ff (at 


ul = Wix?, 输入 Xx? 是 no 维 向 量 , 权 值 矩 阵 W?1 是 n; x no 矩阵。 令 向 量 w! 是 将 W1 的 各 行 连接 
起 来 形成 的 向 量 ， 它 是 ma no 维 向 量 。ww ?对 w 的 雅 可 比 是 ni x (na mo) 和 矩阵 : 


和 
1 Xr Xno . . 
2 = | ee ) (8.24 ) 
0 区 0 oo. X1 eo.. Xno ee 


将 上 述 一 系列 雅 可 比 连 乘 起 来 就 得 到 交 义 炉 Zz 对 w! 的 雅 可 比 和 矩阵 : 


r= (py (Rx Wediag(f’' Ca)))) 2 (8.25 ) 


基于 同样 的 推导 可 得 到 任意 第 s 层 (1 < s < K ) 的 权 值 向 量 ws 的 雅 可 比 矩 阵 : 


= (p— y(t wrdiag(f'(a®)))) 下 ( 8.26 ) 
其 中 : 
5 罗网 2 本 0 a0 0 
| JE ) (8.27 ) 
WN 0 a 0 ae 和 本 Rs 


nsx(nsns-1) 


注意 连 乘 TI 是 从 K 开 始 反 着 数 到 s + 1, 若 s = K 则 没有 连 乘 项 。 接 下 来 求 交 叉 焙 对 各 层 偏 置 向 
量 的 雅 可 比 和 矩阵 ， 因 为 第 k 层 的 a* = wr* 十 b*， 所 以 : 


k 
=1 ( 8.28) 
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于 是 ， 交 又 炉 L 对 第 s 层 (1 < s < K ) 的 偏 置 向 量 bs 的 雅 可 比 和 矩阵 是 : 


oL 
obs 


计算 各 层 的 雅 可 比 时 不 必 重 头 来 过 , 信息 积累 在 连 乘 项 之 中 , 连 乘 项 的 反 向 积累 就 是 反 向 传 


= (p—y)" (Tk wr*diag(f’ ar’))) ( 8.29 ) 


播 。 式 〈8.26 ) 和 式 ( 8.29 ) 就 是 在 多 层 全 连接 神经 网 络 计 算 图 上 的 反 向 传播 公式 ， 它 们 与 第 7 
曹 介 绍 的 特殊 反 向 传播 算法 是 一 致 的 。 


8.4 计算 图 的 Python 实现 


本 节 我 们 用 原生 Python 和 Numpy 库 实现 计算 图 以 及 自动 求 导 ,并 用 计算 图 搭建 多 层 全 连接 


神 


经 网 络 。 与 TensorFlow 不 同 ， 我 们 的 节点 不 是 2 维 、3 维 ， 乃 至 更 高 维度 的 张 量 ， 而 是 向 量 。 


上 


根据 之 前 的 讨论 , 原则 上 只 用 向 量 就 可 以 实现 任何 计算 , 只 是 在 易 用 性 和 效率 上 打 了 折扣 , 但 是 
只 以 向 量 为 节点 能 更 清晰 地 展现 节点 与 节点 之 间 的 映射 关系 , 以 及 它们 之 间 的 求 导 关系 一 一 雅 可 


矩阵。 首先 ， 我 们 实现 计算 网 节点 的 基 类 ， 代 码 如 下 : 
import numpy as np 


from graph import Graph, default graph 


class Node: 


计算 图 节点 类 基 类 


def _ init (self, *parents): 
self.parents = parents # 父 节 点 列表 
self.children = [] # 子 节点 列表 
self.value = None # 本 节点 的 值 
self.jacobi = None # 结果 节点 对 本 节点 的 雅 可 比 和 矩阵 
self.graph = default graph # 计算 图 对 象 ， 默 认为 全 局 对 象 default _graph 


# 将 本 节点 添加 到 父 节点 的 子 节点 列表 中 
for parent in self.parents : 
parent.children.append(self) 


# 将 本 节点 添加 到 计算 图 中 
self.graph.add node(self) 


def set graph(self, graph): 
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nan 


设置 计算 图 


nan 


assert isinstance(graph, Graph) 
self.graph = graph 


def get parents(self): 


mn 


获取 本 节点 的 父 节 点 


mn 


return self.parents 


def get children(self): 


mn 


获取 本 节点 的 子 节点 


mn 


return self.children 


def forward(self): 


nan 


前 向 传播 计算 本 节点 的 值 ， 若 父 节 点 的 值 未 被 计算 ， 则 递归 调用 父 节 点 的 forward 方法 


mn 


for node in self.parents: 
if node.value is None: 
node.forward() 


self.compute() 


def compute(self): 


mn 


抽象 方法 ， 根 据 父 节点 的 值 计算 本 节点 的 值 


mn 


pass 


def get jacobi(self, parent): 


mn 


抽象 方法 ， 计 算 本 节点 对 某 个 父 节点 的 雅 可 比 矩 阵 


mn 


pass 


def backward(self, result): 


mn 


反 向 传播 ， 计算 结果 节点 对 本 节点 的 雅 可 比 算 阵 


man 


if self.jacobi is None: 
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if self is result: 
self.jacobi = np.mat(np.eye(self.dimension())) 
else: 


self.jacobi = np.mat(np.zeros((result.dimension(), self.dimension()))) 


for child in self.get children(): 
if child.value is not None: 
self.jacobi += child.backward(result) * child.get jacobi(self) 


return self.jacobi 


de 


中 


clear jacobi(self) : 


mn 


清空 结果 节点 对 本 节点 的 雅 可 比 纶 阵 


mam 


self.jacobi = None 


de 


中 


dimension(self) : 


mn 


返回 本 节点 的 值 的 向 量 维 数 


mn 


return self.value.shape[0] if self.value is not None else None 


de 


中 


reset value(self, recursive=True): 


mn 


重 置 本 节点 的 值 ， 并 递归 重 置 本 节点 的 下 游 节点 的 值 


mn 


self.value = None 


if recursive: 
for child in self.children: 
child.reset value() 


代码 中 ,Graph 类 是 计算 图 类 ，default_graph 对 象 是 一 个 全 局 的 计算 图 对 象 , 它们 的 实现 我 
们 稍 后 呈现 。Node 类 是 计算 图 节点 的 基 类 ， 所 有 类 型 的 节点 都 继承 自 Node 类 。Node 类 实现 了 计 
算 图 节点 的 一 些 公共 方法 ， 它 的 构造 函数 接受 可 变数 量 的 Node 类 对 象 作 为 本 节点 的 父 节 点 ， 本 
节点 的 值 用 这 些 父 节点 的 值 计算 而 得 。 


节点 对 象 保存 父 节 点 和 子 节点 的 引用 列表 , 这 是 构成 计算 图 的 “ 边 ” 的 关键 数据 结构 ,利用 
它们 ,就 可 以 遍历 计算 图 。value 和 jacobi 是 节点 的 属性 , 分 别 保 存 节 点 的 值 和 某 个 被 视 为 最 终 
结果 的 节点 对 本 节点 的 雅 可 比 矩 阵 。 若 它们 为 空 ， 则 表示 尚 没 有 被 计算 。 构造 函 数 将 通过 参数 传 
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进来 的 节点 加 入 本 证 点 的 父 节 点 列表 , 再 将 本 节点 加 入 所 有 父 节 点 的 子 节 点 列表 , 最 后 将 本 节点 
加 入 计算 图 对 象 的 节点 列表 。 


接 下 来 是 一 些 简单 的 设置 和 获取 方法 ， 不 必 赣 述 。forward 是 执行 前 向 传播 、 计 算 本 节点 的 
值 的 方法 ， 它 是 8.3 节 的 伪 代 码 的 实现 。 为 了 计算 本 节点 的 值 ，forward 方法 首先 检查 父 节点 的 
值 是 否 为 空 ， 若 某 个 父 节点 的 值 为 空 ， 则 递归 调用 该 父 节点 的 forward 方法 。 确 保 所 有 父 节点 的 
值 都 已 被 计算 后 ，forward 方法 调用 compute 方法 计算 本 节点 的 值 。 在 基 类 中 ，compute 方法 是 一 
个 抽象 方法 , 需要 具体 的 节点 子 类 去 覆盖 实现 各 种 不 同 的 计算 。get_jacobi 方法 是 另 一 个 抽象 方 
法 ， 它 接受 一 个 父 节 点 ， 计 算 当 前 本 节点 对 这 个 父 节点 的 雅 可 比 矩 阵 。 


backward 方法 是 实现 反 向 传播 的 关键 , 它 接受 一 个 被 视 为 计算 图 计算 结果 的 节点 ,计算 当前 
该 结果 节点 对 本 节点 的 雅 可 比 和 矩阵 。backward 方法 是 8.3 节 的 伪 代 码 的 实现 。 若 本 节点 的 jacobi 
属性 为 空 ， 则 表示 结果 节点 对 本 节点 的 雅 可 比 和 矩阵 尚未 被 计算 。 若 本 节点 就 是 结果 节点 ， 则 雅 可 
比 矩阵 为 单位 矩阵 , 否则 利用 链 式 法 则 根据 结果 节点 对 各 个 子 节点 的 雅 可 比 矩 阵 计算 结果 节点 对 
本 节点 的 雅 可 比 和 矩阵 [ 式 (8.17 )]。 


接 下 来 的 两 个 方法 容易 理解 ， 不 再 鳌 述 。reset_value 方法 将 本 节点 的 值 置 空 。 因 为 本 节点 
的 值 影响 下 游 节 点 的 值 ,所 以 应 该 递归 置 空 所 有 下 游 节 点 的 值 。 是 否 递归 取决 于 参数 recursive。 


有 了 基 类 , 我 们 就 可 以 实现 各 种 不 同 的 节点 类 , 它们 执行 不 同 计算 。 我 们 首先 实现 Variable 
类 ， 它 保存 一 个 变量 。Variable 对 象 没有 父 节 点 ， 它 们 是 计算 图 的 终端 节点 。 可 以 随机 初始 化 
Variable 对 象 的 值 ， 也 可 以 为 Variable 对 象 赋值 。Variable 类 的 代码 如 下 : 


class Variable(Node) : 


变 (向 ) 量 节点 


def _ init (self, dim, init=False, trainable=True): 
变量 节点 没有 父 节 点 ， 构 造 溃 数 接受 变量 的 维 数 ， 以 及 变量 是 否 参 与 训练 的 标识 


Node. init (self) 
self.dim = dim 


# 如 果 需 要 初始 化 ， 则 以 正 态 分 布 随机 初始 化 变量 的 值 
if init: 
self.value = np.mat(np.random.normal(0, 0.001, (self.dim, 1))) 
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# 变量 节点 是 否 参 与 训练 
self.trainable = trainable 


de 


中 


set value(self, value): 


mn 


为 变量 赋值 


mn 


assert isinstance(value, np.matrix) and value.shape == (self.dim, 1) 


# 本 节点 的 值 被 改变 ， 重 置 所 有 下 游 节点 的 值 
self.reset value() 
self.value = value 


Variable 类 的 构造 函数 接受 dim 参数 , 确定 变量 的 维 数 。init 参数 表示 是 否 要 随机 初始 化 变 
量 的 值 。trainable 参数 表示 本 变量 节点 是 否 参 与 训练 。set_value 方法 为 Variable 类 独 有 ， 它 
设置 变量 的 值 。 若 变量 的 值 被 改变 ， 则 计算 图 中 所 有 下 游 节 点 的 值 都 将 作废 ， 所 以 set_value 方 
法 调用 reset_value 方法 递归 清除 本 节点 以 及 所 有 下 游 节 点 的 值 。Variable 对 象 的 值 是 被 赋予 或 
被 随机 初始 化 的 ， 所 以 它 不 用 实现 compute 方法 。Variable 对 象 没 有 父 节 点 ， 它 也 不 用 实现 
get_jacobi 方法 。 接 下 来 我 们 实现 向 量 加 法 节点 ， 代 码 如 下 : 


class Add(Node): 


nn 


向 量 加 法 


mn 


def compute(self) : 
assert len(self.parents) == 2 and self.parents[0].dimension() == self.parents[1].dimension() 
self.value = self.parents[0].value + self.parents[1].value 


def get jacobi(self, parent): 8 


return np.eye(self.dimension()) # 向 量 之 和 对 其 中 任 一 个 向 量 的 雅 可 比 矩 阵 是 单位 矩阵 
Add 类 的 compute 方法 将 两 个 父 节 点 的 值 相 加 。get_jacobi 方法 求 当 前 Add 对 象 对 某 一 个 父 
节点 的 雅 可 比 和 矩阵。 向 量 加 法 是 一 个 RR"* 一 恨 "* 的 映射 ， 它 对 其 中 某 一 个 参与 加 和 的 向 量 的 雅 可 比 
矩阵 是 mn x ?单位 和 矩阵。 向量 内 积 (点 积 ) 节点 的 代码 如 下 : 


class Dot(Node): 


向 量 内 积 


def compute(self) : 
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assert len(self.parents) == 2 and self.parents[0].dimension() == self.parents[1].dimension() 
self.value = self.parents[0].value.T * self.parents[1].value # 1x1 矩 阵 (标量 ) ， 为 两 个 父 节 


点 的 内 积 


def get jacobi(self, parent): 
if parent is self.parents[0]: 
return self.parents[1].value.T 
else: 
return self.parents[0].value.T 


在 我 们 的 实现 中 , 值 一 律 采用 numpy.matrix 类 型 ， 即 矩阵 。n 维 向 量 就 是 n x 1 矩阵, 标量 就 
是 1x1 抢 阵 。.Dot 类 的 compute 方 法 计算 两 个 父 节 点 的 内 积 。 因 为 节点 的 值 是 numpy.matrix 类 型 ， 
经 过 重 载 的 * 运 算 执行 的 是 矩阵 相 乘 ， 对 于 一 个 行 向 量 ( 列 向 量 的 转 置 ) 和 一 个 列 向 量 来 说 ， 计 
算 的 结果 是 一 个 1x1 和 矩阵 (标量 )， 即 这 两 个 向 量 的 内 积 。get_jacobi 方法 计算 Dot 节点 对 某 
个 父 节 点 的 雅 可 比 矩阵 ， 请 看 下 式 : 


2 和 (711) = 区 (8.30 ) 
所 以 有 : 
(2 l 2 Mi 2) = 0 yz ,Yn) (8.31 ) 


内 积 对 某 个 向 量 的 雅 可 比 和 矩阵 是 另 一 个 向 量 的 转 置 ,这 就 是 Dot 类 的 get_jacobi 方法 所 返回 
的 值 。 接 下 来 我 们 实现 Logistic 节点 ， 它 对 父 节点 的 每 个 分 量 施 加 Logistic 函数 ， 代 码 如 下 : 


class Logistic(Node): 


nn 


对 向 量 的 分 量 施加 Logistic 函数 


nn 


def compute(self) : 
x = self.parents[0].value 
self.value = np.mat(1.0 / (1.0 + np.power(np.e, np.where(-x > 1e2，1e2，-X)))) # 对 父 节 点 


的 每 个 分 量 施 加 Logistic 


def get jacobi(self, parent): 
return np.diag(np.mat(np.multiply(self.value, 1 - self.value)).A1) 
回忆 第 6 章 中 我 们 对 Logistic 函数 的 介绍 ， 可 以 利用 Logistic 函数 的 值 方便 地 求 得 其 导数 
( 式 6.11 ).Logistic 类 的 get_jacobi 方法 利用 已 经 计算 好 的 value 成 员 计 算 对 父 节点 的 雅 可 比 矩 
阵 。 该 雅 可 比 矩 阵 是 一 个 对 角 和 矩阵 ， 对 角 线 元 素 是 Logistic 函数 对 父 节 点 某 个 分 量 的 导数 。 类 似 
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地 ，ReLU 节点 的 代码 如 下 : 


class ReLU(Node) : 


mn 


对 向 量 的 分 量 施加 ReLU 函数 


nn 


def compute(self) : 
self.value = np.mat(np.where(self.parents[0].value > 0.0，self.parents[0].value，0.0)) # 对 
父 节 点 的 每 个 分 量 施 加 logistic 


def get jacobi(self, parent): 
return np.diag(np.where(self.parents[0] .value.A1 > 0.0, 1.0, 0.0)) 

ReLu 节点 的 值 和 雅 可 比 矩 阵 都 很 容易 计算 ,代码 自明 ,不 再 歼 述 。 我 们 的 计算 图 只 操作 向 量 ， 
没有 矩阵 乘法 , 但 是 通过 多 个 向 量 内 积 可 以 实现 矩阵 乘法 。 比 如 神经 网 络 中 常见 的 仿 射 计 算 一 一 
用 权 值 矩阵 乘 以 输入 向 量 , 这 时 可 以 将 权 值 矩 阵 的 每 一 行 作 为 权 值 向 量 , 求 它们 与 输入 向 量 的 内 
积 ， 再 将 多 个 内 积 结果 组 成 向 量 。Vectorize 节点 负责 将 多 个 父 节点 的 值 ( 都 应 该 是 1 x 1 标量 ) 
组 成 一 个 向 量 ， 代 码 如 下 : 


class Vectorize(Node) : 


将 多 个 父 节点 组 装 成 一 个 向 量 


def compute(self) : 
assert len(self.parents) > 0 
self.value = np.mat(np.array([node.value for node in self.parents])).T # 将 本 节点 的 父 节点 


def get jacobi(self, parent): 
return np.mat([node is parent for node in self.parents]).astype(np.float).T 


对 于 某 一 个 父 节点 来 说 ,Vectorize 节点 是 一 个 RR! RR" 的 映射 , 它 的 雅 可 比 和 矩阵 是 一 个 n x 1 
和 抢 阵 ， 在 对 应 该 父 节点 位 置 上 的 分 量 为 1， 其 余 分 量 为 0。 接 下 来 ， 我 们 实现 SoftMax 节点 ， 代 
码 如 下 : 


class SoftMax(Node): 


nn 


SoftMax 函数 


nn 
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@staticmethod 

def softmax(a): 
a[a > 1e2] = 1e2 # 防止 指数 过 大 
ep = np.power(np.e, a) 
return ep / np.sum(ep) 


de 


a 


Compute(self) : 
self.value = SoftMax.softmax(self.parents[0].value) 


de 


ls 


get jacobi(self, parent): 


nnn 


我 们 不 实现 SoftMax 节点 的 get_jacobi 函数 ， 训 练 时 使 用 CrossEntropyWithSoftMax 节点 ( 见 下 ) 


nan 


return np.mat(np.eye(self.dimension())) # 无 用 


SoftMax 节点 执行 的 计算 我 们 已 经 很 熟悉 了 ， 但 是 我 们 不 实现 它 的 get_jacobi 方法 ， 因 为 计 
算 SoftMax 函数 对 输入 向 量 的 雅 可 比 矩 阵 较 复 杂 ， 但 是 如 果 将 SoftMax 函数 的 输出 送 给 交叉 精 ， 
计算 交叉 彤 损失 对 SoftMax 函数 的 输入 向 量 的 雅 可 比 矩 阵 是 相当 简单 的 ( 式 7.42 )。 所 以 我 们 实 
现 一 个 将 SoftMax 末 数 与 交叉 和 损 失 合 二 为 一 的 节点 类 ， 代 码 如 下 : 


class CrossEntropyWithSoftMax(Node): 


CL 


对 第 一 个 父 节 点 施加 SoftMax 之 后 ， 再 以 第 二 个 父 节 点 为 标签 0ne-Hot 向 量 计算 交 又 灶 


mn 


def compute(self) : 
prob = SoftMax.softmax(self.parents[0].value) 
self.value = np.mat(-np.sum(np.multiply(self.parents[1].value, np.log(prob + 1e-10)))) 


def get jacobi(self, parent): 
# 这 里 存在 重复 计算 ,但 为 了 代码 清晰 简洁 ， 合 弃 进 一 步 优化 
prob = SoftMax.softmax(self.parents[0] .value) 
if parent is self.parents[0]: 
return (prob - self.parents[1].value).T 
else: 
return (-np.log(prob)).T 


CrossEntropyWithSsoftMax 节点 的 compute 方法 对 第 一 个 父 节 点 的 值 施加 SoftMax 函数 ,再 与 
第 二 个 父 节点 的 值 计算 交叉 炉 。 第 二 个 父 节点 的 值 是 类 别 标签 的 One-Hot 编码 向 量 。get_jacobi 
方法 对 第 一 个 父 节 点 计算 式 7.42， 对 第 二 个 父 节 点 的 雅 可 比 矩 阵 不 会 被 使 用 ,但 是 也 实现 在 此 。 


至 此 , 我 们 实现 了 儿 种 典型 的 计算 图 节点 ,它们 对 于 我 们 接 下 来 要 做 的 事情 已 经 足够 。 有 兴 
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趣 的 读者 可 以 自己 实现 一 些 其 他 类 型 的 节点 。 接 下 来 我 们 实现 Graph 类， 代码 如 下 : 


class Graph: 


mn 


计算 图 类 


mn 


def 


de 


中 


de 


中 


de 


中 


# 全 局 默认 计算 图 


_ init (self): 
self.nodes = [] # 计算 图 内 的 节点 的 列表 


add node(self, node): 


mam 


添加 节点 


mam 


self.nodes.append(node) 


clear jacobi(self) : 


mn 


清除 图 中 全 部 节点 的 雅 可 比 和 矩阵 
for node in self.nodes: 
node.clear jacobi() 


reset value(self): 


mn 


重 置 图 中 全 部 节点 的 值 


mn 


for node in self.nodes : 
node.reset value(False) # 每 个 节点 不 递归 清除 自己 的 子 节点 的 值 


default graph = Graph() 


我 们 的 Graph 类 较 简 单 ， 它 只 保留 计算 图 的 全 部 节点 , 实现 清除 所 有 节点 的 雅 可 比 和 矩阵 和 值 的 
方法 。default_graph 是 一 个 全 局 的 Graph 对 象 ， 默 认 情 况 下 所 有 节点 都 将 被 加 入 到 default_graph 


中 。 最 后 ， 我 们 实现 训练 优化 器 类 。 所 有 优化 器 类 都 继承 自 一 个 基 类 ， 代 码 如 下 : 


from graph import Graph, default graph 


from node import * 


class Optimizer: 


nn 
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优化 器 基 类 


mn 


def init (self, graph, target, batch size=12): 
assert isinstance(target, Node) and isinstance(graph, Graph) 
self.graph = graph 
self.target = target 
self.batch size = batch size 


# 为 每 个 参与 训练 的 节点 累加 一 个 Mini Batch 的 全 部 样本 的 梯度 
self.acc gradient = dict() 
self.acc_no = 0 


def one step(self): 


mn 


计算 并 累加 样本 的 梯度 ， 一 个 Mini Batch 结束 后 执行 变量 更 新 


man 


self.forward backward() 


self.acc no += 1 

if self.acc no >= self.batch size: 
self.update() 
self.acc_ gradient.clear() # 清除 梯度 累加 
self.acc no = 0 # 清除 计数 


def get gradient(self, node): 


mn 


返回 一 个 Mini Batch 的 样本 的 平均 梯度 
assert node in self.acc gradient 
return self.acc gradient[node] / self.batch size 


def update(self) : 


mn 


抽象 方法 ， 利 用 梯度 更 新 可 训练 变量 


mn 


pass 


def forward backward(self) : 


mn 


前 向 传播 计算 结果 节点 的 值 并 反 向 传播 计算 结果 节点 对 各 个 节点 的 梯度 


mn 


# 前 向 传播 计算 结果 节点 
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self.target.forward() 


# 反 向 传播 计算 梯度 
for node in self.graph.nodes: 
if isinstance(node, Variable) and node.trainable: 
node.backward(self.target) 


if node not in self.acc gradient: 

self.acc gradient[node] = node.jacobi.T 
else: 

self.acc gradient[node] += node.jacobi.T 


# 更 新 完毕 ， 清 除 计算 图 中 所 有 节点 的 雅 可 比 给 阵 
ee 


0ptimizer 类 的 构造 函数 接受 一 个 Graph 对 象 一 个 作为 优化 目标 的 节点 对 象 ,以 及 Mini Batch 

的 样本 数量 。 因 为 我 们 的 计算 图 节点 只 能 包含 一 个 向 量 , 所 以 不 能 利用 更 高 的 维度 在 节点 值 中 包 

含 整个 Mini Batch。 于 是 ， 我 们 对 Mini Batch 的 实现 是 这 样 的 : 对 一 个 Mini Batch 中 的 样本 依次 

执行 前 向 传播 和 反 向 传播 ， 将 参与 训练 的 变量 的 梯度 累加 在 acc_gradient 中 ， 一 个 Mini Batch 
计算 完毕 后 执行 变量 更 新 ， 这 时 使 用 Mini Batch 中 多 个 样本 的 平均 梯度 。 


one_step 方法 调用 forward_backward 方法 对 一 个 样本 执行 前 向 传播 和 反 向 传播 , 将 目标 节点 
对 各 个 变量 的 梯度 累加 在 acc_gradient 中 ， 最 后 清除 所 有 节点 的 雅 可 比 和 矩阵 。one_step 方法 计 
数 样本 数 , 当 样 本 数 达 到 batch_size 时 , 执行 update 方法 更 新 变量 , 并 清除 累加 梯度 以 及 计数 。 
get_gradient 方法 返回 一 个 Mini Batch 的 所 有 样本 的 平均 梯度 。 


update 是 抽象 方法 , 利用 Mini Batch 的 平均 梯度 以 各 种 不 同 的 方法 更 新 变量 值 。 update 方法 
将 在 具体 的 优化 器 类 中 得 到 实现 。forward_backward 方法 执行 前 向 传播 ,计算 目标 节点 的 值 ， 然 
后 反 向 传播 计算 目标 节点 对 每 个 参与 训练 的 变量 节点 的 雅 可 比 矩 阵 。 原始 梯度 下 降 的 优化 带 实 现 
如 下 : 


class GradientDescent (Optimizer): 
梯度 下 降 优化 器 
def _init (self, graph, target, learning rate=0.01, batch size=32): 
Optimizer. init (self, graph, target, batch size) 


self.learning rate = learning rate 


def update(self): 
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for node in self.graph.nodes: 
if isinstance(node, Variable) and node.trainable: 
gradient = self.get gradient(node) 


node.set value(node.value - self.learning rate * gradient) 
除了 0ptimizer 类 的 参数 ，GradientDescent 类 的 构造 函数 还 接受 learning_rate 参数 ， 即 学 


习 率 。GradientDescent 类 的 update 方法 相当 简单 ， 就 是 获得 平均 梯度 ， 乘 以 学 习 率 并 取 反 后 更 
新 到 变量 节点 的 当前 值 上 。RMSProp 和 Adam 优化 器 的 代码 如 下 : 


class RMSProp(Optimizer): 


mn 


RMSProp 优化 器 


mn 


def init (self, graph, target, learning rate=0.01, beta=0.9, batch size=32): 
Optimizer. init (self, graph, target, batch size) 
self.learning rate = learning rate 


assert 0.0 < beta < 1.0 
self.beta = beta 


self.s = dict() 
def update(self) : 


for node in self.graph.nodes : 
if isinstance(node, Variable) and node.trainable: 
gradient = self.get gradient(node) 


if node not in self.s: 
self.s[node] = np.power(gradient, 2) 
else: 
self.s[node] = self.beta * self.s[node] + (1 - self.beta) * np.power(gradient, 2) 


node.set value(node.value - self.learning rate * gradient / (np.sqrt(self.s[node] 
+ 1e-10))) 


class Adam(Optimizer): 


mn 


Adam 优化 器 


mn 
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def _init (self, graph, target, learning rate=0.01, beta 1=0.9, beta 2=0.99, batch size=32): 
Optimizer. init (self, graph, target, batch size) 
self.learning rate = learning rate 


assert 0.0 < beta 1< 1.0 
self.beta 1 = beta 1 


assert 0.0 < beta 2 < 1.0 
self.beta 2 = beta 2 


self.s = dict() 
self.v = dict() 


def update(self): 


for node in self.graph.nodes: 
if isinstance(node, Variable) and node.trainable: 
gradient = self.get gradient(node) 


if node not in self.s: 
self.v[node] = gradient 
self.s[node] = np.power(gradient, 2) 
else: 
self.v[node] = self.beta 1 * self.v[node] + (1 - self.beta 1) * gradient 
self.s[node] = self.beta 2 * self.s[node] + (1 - self.beta 2) * np.power 
(gradient, 2) 


node.set value(node.value - self.learning rate * self.v[node] / np.sqrt 
(self.s[node] + 1e-10)) 


关于 RMSProp 和 Adam， 前 文 已 经 有 了 详细 论述 和 Python 实现 ， 这 里 只 是 把 相同 逻辑 实现 8 
在 我 们 的 计算 图 优化 器 框架 内 ,就 不 再 详细 解释 了 。 有 兴趣 的 读者 可 以 自己 实现 其 他 优化 嚣 。 最 
后 ,我 们 用 这 个 计算 图 框架 搭建 一 个 多 层 全 连接 神经 网 络 , 并 用 它 分 类 乌 类 生态 类 群 ,代码 如 下 : 


import matplotlib.pyplot as plt 

import numpy as np 

import pandas as pd 

import seaborn as sns 

from sklearn.metrics import accuracy score, classification report, confusion matrix 
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler 


from node import * 
from optimizer import * 
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bird = pd.read csv("bird.csv").dropna().drop("id", axis=1) 


# 先 将 6 个 类 别 的 字符 串 名 称 编码 成 整数 编号 ， 再 转化 成 6 个 1/0 值 的 one hot 编码 

label encoder = LabelEncoder() 

one hot label = OneHotEncoder(sparse=False, categories="auto").fit transform( 
label encoder.fit transform(bird.type).reshape(-1, 1)) 


# 去 掉 类 别 的 字符 串 名 称 列 
bird.drop("type", axis=1, inplace=True) 


# 将 10 个 数值 型 特征 列 与 6 个 类 别 标签 one hot 编码 列 合并 起 来 
data = np.c [bird.values, one hot label] 


# 将 样本 随机 洗 牌 
np.random.shuffle(data) 


# 前 300 个 样本 作为 训练 集 ， 将 特征 与 one hot 编码 分 开 
ss = StandardScaler() 

train x = ss.fit transform(np.mat(data[:300，:-6])) 
train y = np.mat(data[:300，-6:]) 


# 其 余 样 本 作为 测试 集 ， 将 特征 与 one hot 编码 分 开 
test x = ss.transform(np.mat(data[300:，:-6])) 
test y = np.mat(data[300:，-6:]) 


# 构造 多 层 全 连接 神经 网 络 的 计算 图 
X = Variable(10，trainable=False) # 10 维特 征 变量 


# 隐藏 层 12 个 神经 元 
hidden layer = [] 
for i in range(12): 
hidden layer.append(Add(Dot(Variable(10, True), X), Variable(1, True))) 


# 隐藏 层 的 输出 
hidden layer output = ReLU(Vectorize(*hidden layer)) 


# 输出 层 6 个 神经 元 
output layer = [] 
for i in range(6): 
output_ layer.append(Add(Dot(Variable(12, True), hidden layer output), Variable(1, True))) 


# 输出 层 的 仿 射 值 以 及 施加 SoftMax 后 的 概率 值 
output = Vectorize(*output layer) 
prob = SoftMax(output) 
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# 训练 标签 
label = Variable(6, trainable=False) 


# 交叉 粒 损 失 
loss = CrossEntropyWithSoftMax(output，label) # 注意 第 一 个 父 节 点 是 输出 层 的 仿 射 值 


# Adam 优化 器 
optimizer = Adam(default graph, loss, 0.05, batch size=32) 


# 训练 
for e in range(500): 


# 每 个 epoch 开始 时 在 测试 集 上 评估 模型 正确 率 
probs = [] 
losses = [] 
for i in range(len(test x)): 
X.set value(np.mat(test x[i, :]).7) 
label.set value(np.mat(test y[i, :]).7) 


# 前 向 传播 计算 概率 
prob. forward() 
probs.append(prob.value.A1) 


# 计算 损失 值 
loss.forward() 
losses.append(loss.value[0, 0]) 


# 取 概 率 最 大 的 类 别 为 预测 类 别 

pred = [label encoder.classes [idx] for idx in np.argmax(np.array(probs), axis=1)] 
truth = [label encoder.classes [idx] for idx in np.argmax(test y, axis=1).A1] 
accuracy = accuracy score(truth, pred) 


print("Epoch: {:d}， 损失 值 : {:.3f}， 正 确 率 : {:.2f}%.format(e+1, np.mean(losses), accuracy * 100)) 


for i in range(len(train x)): 
X.set value(np.mat(train x[i, :]).7) 
label.set value(np.mat(train y[i, :]).7) 


# 执行 一 步 优化 
optimizer.one_step() 


# 训练 结束 后 打印 最 终 评价 
piint(" 测 试 集 正 确 率 : {:.3f}".format(accuracy_score(truth,，pred))) 
print(classification report(truth, pred)) 
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fig = plt.figure(figsize=(8, 8)) 

ax = fig.add subplot(111) 

_ = sns.heatmap( 
confusion matrix(truth, pred), 
square=True, 
xticklabels=label encoder.classes ， 
annot=True, 
annot kws={"fontsize": 8}, 
yticklabels=label encoder.classes ， 
cbar=False, 
cmap=sns.light palette("#00304e", as_cmap=True), 
ax=ax 


) 


准备 数据 以 及 模型 评价 的 过 程 与 之 前 的 代码 一 样 。 构造 多 层 全 连接 神经 网 络 计 算 图 的 关键 代 
人 码 如 下 : 


# 构造 多 层 全 连接 神经 网 络 的 计算 图 
X = Variable(10，trainable=False) # 10 维特 征 变 量 


# 隐藏 层 12 个 神经 元 
hidden layer = [] 
for i in range(12): 
hidden layer.append(Add(Dot(Variable(10, True), X), Variable(1, True))) 


# 隐藏 层 的 输出 
hidden layer output = ReLU(Vectorize(*hidden layer)) 


# 输出 层 6 个 神经 元 
output layer = [] 
for i in range(6): 
output layer.append(Add(Dot(Variable(12, True), hidden layer output), Variable(1, True))) 


# 输出 层 的 仿 射 值 以 及 施加 SoftMax 后 的 概率 值 
output = Vectorize(*output layer) 
prob = SoftMax(output) 


# 训练 标签 
label = Variable(6, trainable=False) 


# 交 又 炳 损失 
loss = CrossEntropyWithSoftMax(output，label) # 注意 第 一 个 父 节 点 是 输出 层 的 仿 射 值 


X 是 一 个 10 维 变 (向 ) 量 ， 对 应 样本 的 10 个 特征 。hidden_layer 数组 保存 隐藏 层 的 12 个 神 
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经 元 。 它 们 用 Add、Dot 与 Variable 市 点 构造 ， 其 中 Variable 类 型 节点 保存 12 个 10 维权 值 向 量 
和 偏 置 . 接 下 来 用 Vectorize 节点 将 hidden_layer 数组 中 的 节点 组 成 向 量 , 施 加 ReLU 激活 函数 ， 
这 就 得 到 了 隐藏 层 的 输出 节点 hidden_layer_output。 


output_layer 数组 保存 输出 层 的 6 个 神经 元 ， 仍 然 用 Add、Dot 与 Variable 节点 构造 ， 但 权 
值 向 量 是 12 维 的 。 将 output_layer 数组 中 的 节点 组 成 向 量 后 得 到 output 节点 ， 以 它 为 父 节 点 构 
造 SoftMax 节点 ， 即 为 神经 网 络 的 输出 节点 。 但 为 了 训练 ,我们 以 output 节点 为 父 节点 构造 
CrossEntropyWithSoftMax 节点 loss。 除 了 output 节点 ，1loss 的 父 节 点 还 包括 1abel 节点 ， 它 是 
一 个 6 维 变 (向 ) 量 节点 ,训练 时 被 赋予 样本 类 别 标签 One-Hot 编码 。 该 神经 网 络 计算 图 的 训练 
代码 如 下 : 


# Adam 优化 器 
optimizer = Adam(default graph, loss, 0.05, batch size=32) 


# 训练 
for e in range(500): 
for i in range(len(train x)): 
X.set value(np.mat(train x[i, :]).7) 
label.set value(np.mat(train y[i，:]).T) 


# 执行 一 步 优 化 
od 
首先 构造 一 个 Adam 优化 器 对 象 optimizer， 它 接受 loss 节点 为 优化 目标 ,学 习 率 取 0.05， 
一 个 Mini Batch 包含 32 个 样本 ， B1 和 B? 参 数 都 取 默 认 值 。 训练 进行 500 个 epoch,， 每 个 epoch 依 
次 将 训练 样本 赋 给 变量 节点 xX， 执行 optimizer 的 one_step 函数 ， 更 新 多 层 全 连接 神经 网 络 的 各 
个 权 值 向 量 和 偏 置 。 


为 了 展现 计算 图 的 表达 能 力 , 我 们 再 搭建 两 个 非 全 连接 的 神经 网 络 。 首 先 , 我 们 搭建 推荐 系 
统 和 CTR 预 估 领 域 常 用 的 Wide & Deep 模型 ， 代 码 如 下 : 


# 输入 向 量 : 一 次 特征 
X = Variable(10，trainable=False) # 10 维特 征 变量 


# 输入 向 量 : 二 次 特征 ， 共 C(10,2)=45 个 
X 2 = Variable(45, trainable=False) 


# Wide 部 分 
wide = [] 
for i in range(6) : 
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看 ， 


wide.append(Add(Dot(Variable(45, True), X 2), Variable(1, True))) 
wide = Vectorize(*wide) 


# Deep 部 分 
hidden1 size = 12 


12 


hidden2 size 


第 1 隐藏 层 的 神经 元 
hidden1 = [] 
for i in range(hidden1 size): 
hidden1.append(Add(Dot(Variable(10, True), X), Variable(1, True))) 


# 第 1 隐藏 层 的 输出 
hidden1 = ReLU(Vectorize(*hidden1)) 


# 第 2 隐藏 层 的 神经 元 
hidden2 = [] 
for i in range(hidden2 size): 
hidden2.append(Add(Dot(Variable(hidden1 size, True), hidden1), Variable(1, True))) 


# 第 2 隐藏 层 的 输出 
hidden2 = ReLU(Vectorize(*hidden2)) 


# 输出 层 的 6 个 神经 元 
deep = [] 
for i in range(6): 
deep.append(Add(Dot(Variable(hidden2 size, True), hidden2), Variable(1, True))) 
deep = Vectorize(*deep) 


# 输出 层 的 仿 射 值 以 及 施加 SoftMax 后 的 概率 值 
logits = Add(wide, deep) 
prob = SoftMax(logits) 


# 训练 标签 
label = Variable(6, trainable=False) 


# 交叉 粒 损 失 
loss = CrossEntropyWithSoftMax(logits，label) # 注意 第 一 个 父 节 点 是 输出 层 的 仿 射 值 


X 2 是 45 维 变 (向 ) 量 , 因 为 10 个 特征 能 产生 Cz = 45 个 二 次 特征 ,例如 xzxo。 从 数学 角度 
引入 二 次 项 作为 新 特征 ， 可 以 将 线性 模型 提升 为 二 次 非 线性 模型 ; 从 业务 角度 看 ， 新 引入 的 


二 次 项 描绘 了 特征 与 特征 之 间 的 交互 作用 。X_2 容纳 新 引入 的 二 次 项 。 


用 45 个 二 次 项 搭建 一 个 简单 的 6 分 类 逻辑 回归 ，, 它 的 输出 (未 施加 SoftMax ) 是 向 量 wide。 
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接着 ， 我 们 构造 了 一 个 双 隐 藏 层 的 全 连接 神经 网 络 。 该 网 络 的 输入 是 10 维 变 (向 ) 量 X， 接 受 
样本 的 10 个 一 次 特征 。 两 个 隐藏 层 各 有 12 个 神经 元 ， 激 活 函数 为 ReLU。 输 出 层 包含 6 个 神经 
元 ,对 应 6 个 类 别 。 它 们 的 输出 ( 未 施加 SoftMax 症 deep 向 量 . 将 wide 和 deep 相 加 后 施加 SoftMax， 
就 得 到 了 Wide & Deep 模型 的 输出 。 将 wide 和 deep 相 加 后 送 给 CrossEntropyWithSoftMax 节点 ， 
就 得 到 了 训练 时 的 交叉 炳 损失 。 


注意 , 我 们 实现 的 Wide & Deep 模型 与 原始 论文 中 的 模型 有 细节 上 的 出 人, 但 是 它 把 握 住 了 
核心 思想 ,体现 了 Wide & Deep 模 型 作为 非 全 连接 神经 网 络 的 本 质 ,并 展现 了 计算 图 的 表达 能 力 。 
将 Wide & Deep 模型 应 用 于 鸟 类 生态 类 群 问题 的 训练 和 评估 代码 详 见 本 书 网 络 资源 ， 这 里 不 再 


最 后 , 我 们 用 因子 分 解 机 (factorization machine, FM ) 的 思想 改造 上 面 的 Wide & Deep 模型 ， 
将 Wide 部 分 替换 为 一 个 因子 分 解 机 ， 代 码 如 下 : 


# fm 部分， 隐藏 向 量 
fm = [] 
for s in range(6): 
hidden vectors = [] 
for i in range(10): 
hidden vectors.append(Variable(6, True)) 


# factors 
factors = [] 
for i in range(10): 
for j in range(i): 
factors.append(Dot(hidden vectors[i], hidden vectors[j])) 
factors = Vectorize(*factors) 


fm.append(Add(Dot(factors, X 2), Variable(1, True))) 
fm = Vectorize(*fm) 


用 上 述 代 码 替 换 Wide & Deep 模型 的 Wide 部 分 ， 就 将 二 次 项 的 逻辑 回归 改造 成 了 因子 分 解 
机 。 因 子 分 解 机 为 每 一 个 特征 准备 一 个 隐藏 向 量 , 针对 每 一 个 二 次 项 xixj, 将 xi 的 隐藏 向 量 h; 和 x 
的 隐藏 向 量 思 的 内 积 hihj 作 为 xixj 项 的 权重 ,构造 二 次 项 的 逻辑 回归 模型 。 这 样 做 的 好 处 我 们 不 
再 详细 阐述 ， 读 者 可 以 查阅 因子 分 解 机 相关 的 介绍 。 


将 Wide & Deep 模型 的 Wide 部 分 蔡 换 为 因子 分 解 机 后 所 形成 的 模型 ， 我 们 可 以 叫 它 FM & 
Deep 模型 。 这 是 我 们 新 提出 的 模型 ， 学 术 界 和 产业 界 之 前 没有 这 种 模型 。 这 个 例子 展现 了 计算 
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图 的 能 力 ， 读 者 可 以 运用 计算 图 搭建 并 训练 任意 结构 的 新 模型 ， 比 如 FM & Deep。FM & Deep 
其 实 是 沿 着 Wide & Deep 的 深浅 结合 的 思路 ， 尝 试用 FM 增强 Wide 部 分 。 这 就 是 FM & Deep 模 
型 的 动机 ， 至 于 这 个 模型 是 否 有 好 的 效果 ， 则 需要 实验 的 验证 。 实 际 上 ,学 术 界 和 产业 界 已 经 有 
沿 着 这 条 思路 设计 并 经 过 验证 的 模型 了 ， 比 如 DeepFM， 读 者 可 以 自行 查阅 相关 论文 。 


本 节 我 们 实现 了 一 个 简单 的 计算 图 框架 ， 其 功能 并 不 完善 , 效率 也 远 非 最 优 , 主要 目的 是 使 
读者 更 清晰 透彻 地 理解 计算 图 的 原理 , 深切 体会 计算 图 搭建 和 训练 任意 网 络 结构 的 能 力 。 第 7 章 
介绍 的 反 向 传播 是 一 种 特 设 (ad hoc ) 的 算法 ， 它 只 适用 于 多 层 全 连接 神经 网 络 ， 而 有 了 计算 图 
工具 , 就 可 以 随心 所 欲 地 尝试 各 种 网 络 结构 、 损 失 函 数 以 及 正则 项 ,为 建 模 试验 打开 广阔 空间 的 
大 门 。 


8.5 小结 


本 章 介绍 了 计算 图 , 大 部 分 神经 网 络 都 可 以 用 计算 图 表示 。 以 计算 图 中 的 一 个 节点 为 最 终结 
果 , 可 以 计算 它 对 其 他 节点 的 雅 可 比 ， 这 就 是 计算 图 的 自动 求 导 。 在 神经 网 络 语 境 下 ， 自 动 求 导 
可 看 作 是 广义 的 反 向 传播 。 


经 过 前 面 若 干 章节 的 逐步 铺垫 ,我 们 于 本 章 达 到 高 峰 。 我 们 看 到 , 大 部 分 人 工 神 经 网 络 都 可 
以 用 计算 图 描述 , 神经 网 络 的 训练 就 是 计算 图 上 的 自动 求 导 再 加 梯度 下 降 。 本 书后 续 章 节 将 进入 
深度 学 习 领 域 ， 在 那里 ， 我 们 将 遇 到 各 种 复杂 的 神经 元 连接 方式 ， 以 及 各 种 大 规模 的 深度 神经 
网 络 ， 只 要 掌握 了 本 章 介绍 的 工具 ,就 掌握 了 构建 和 训练 任意 神经 网 络 的 方法 ， 从 此 踏 上 胜利 的 
坦途 。 


第 9 章 


卷 积 神经 网 络 


上 一 章 我 们 遇 到 了 一 种 非 全 连接 神经 网 络 ， 它 有 两 层 神经 元 : 隐藏 层 和 输出 层 。 隐 藏 层 与 输 
出 层 之 间 是 全 连接 的 , 但 是 隐藏 层 神经 元 并 不 连接 全 部 输入 。 如 果 将 输入 看 成 二 维 网 格 ， 则 每 个 
隐藏 层 神经 元 连接 到 一 个 子 网 格 ， 全 体 子 网 格 覆 盖 全 部 输入 。 这 种 连接 方式 其 实 就 是 卷 积 层 ， 这 
个 神经 网 络 就 是 一 个 卷 积 神经 网 络 ( convolutional neural network，CNN )。 本 章 我 们 正式 介绍 卷 
积 神经 网 络 。 


我 们 首先 介绍 卷 积 及 其 在 图 像 处 理 领 域 的 应 用 ， 并 从 “可 训练 的 滤波 器 ”角度 引入 卷 积 层 。 
之 后 ， 我 们 介绍 CNN 的 主要 组 件 : 卷 积 层 、 激 活 层 、 池 化 层 和 全 连接 层 。CNN 由 这 些 层 受 加 而 
成 ， 琶 加 的 方式 多 种 多 样 ， 形 成 各 种 不 同 的 CNN。CNN 可 能 具有 几 十 力 至 上 百 层 ， 从 而 跨 入 深 
度 学 习 领 域 。 深 度 学 习 会 遇 到 诸如 梯度 消失 、 内 部 协 变量 漂移 、 过 拟 合 等 问题 ， 人 们 发 明了 一 些 
技术 应 对 这 些 问 题 ， 包 括 权 值 初 始 化 、Dropout 、 数 据 增强 、 批 标准 化 以 及 残 差 学 习 等 。 本 章 的 
最 后 ， 我 们 讨论 这 些 深 度 学 习 特 有 的 问题 和 技术 。 


9.1 卷 积 


CNN 因 卷 积 而 得 名 ， 玫 本 节 首 先 介 绍 卷 积 。 卷 积 是 一 种 针对 函数 的 运算 ， 它 用 两 个 函数 得 
到 一 个 新 函数 。 本 节 介 绍 卷 积 运算 的 原理 和 含义 , 并 着 重 介 绍 其 在 图 像 处 理 中 的 应 用 , 这 也 是 卷 
积 层 作 为 CNN 最 重要 的 组 件 而 发 挥 作用 的 原因 。 


9.1.1 一 元 函数 的 卷 积 


两 个 一 元 因数 户 取 一 展 和 g: 民 一 展 的 卷 积 (convolution ) 是 一 个 新 的 函数 : 


(f *g)(x) = f° f(t) gx — tdt (9.1) 
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卷 积 f * g 是 关于 x 的 函数 ， 它 将 f(t)g(x 一 如 对 t 在 实数 轴 上 积分 。 把 这 个 积分 写成 歼 曼 和 的 
极限 的 形式 ， 可 以 更 清楚 地 洞察 卷 积 的 意义 


(f * g)(x) = limmax(aty) 0 Dio f (ti) 9 (x — ti)Ati (9.2) 


将 数 轴 分 成 无 数 小 区 间 ， 各 个 小 区 间 的 宽度 是 Ati， 在 每 个 小 区 间 内 取 一 个 值 t;， 对 所 有 小 区 
间 求 f(ti)g(x 一 右 )Ati 之 和 , 即 黎 曼 和 。 式 ( 9.2 ) 的 含义 是 : 卷 积 1 * g 在 x 的 值 ,是 函数 g 在 (x 一 ti) 的 
值 以 f(ti)Ati; 为 权重 的 加 权 和 在 区 间 宽 度 Ati 趋 近 于 0 时 的 极限 ， 如 图 9-1 所 示 。 


图 9-1 f*g 在 x (= 2) 的 值 是 加 权 和 在 采样 间隔 趋 近 于 零 时 的 极限 


如 果 f 是 一 个 钟 形 函 数 ， 例 如 标准 正 态 分 布 的 概率 密度 函数 : 


jFGD = 志 e 三 (9.3 ) 
则 f 和 g 的 卷 积 是 : 
(f * g)(x) = a giz, g(x—t)dt (9.4) 


f* g 是 函数 g 的 所 有 值 的 加 权 积 分 ,。f 在 原点 最 大 , 沿 着 正 负 两 侧 衰 减 并 趋 近 于 0。 对 于 x,f 赋 
予 x 最 大 权重 , 距离 x 越 远 则 权重 越 小 。f * g 的 效果 是 对 函数 g 做 模糊 (blur ) 一 一 称 为 高 斯 模糊 。 
车 g 是 随机 函数 ， 则 f * g 的 图 像 如 图 9-2 所 示 。 


9.1 卷 积 217 


图 9-2 高 斯 模糊 的 效果 
以 0 均值 、o 标 准 差 的 正 态 分 布 概率 密度 函数 作为 f: 


1 
270 


则 可 以 通过 标准 差 控制 模糊 的 程度 : 标准 差 越 大 ， 权 重 分 布 越 分 散 ， 模 糊 效 果 越 强 ; 标准 差 越 
小 ， 权 重 分 布 越 集中 ,模糊 效果 越 弱 。 标 准 差 趋 近 于 0 时 ，f(t) 趋 近 于 狄 拉 克 函 数 ( Dirac 


f(t) = i (9.5) 


function ) 只 在 原点 不 为 0， 且 在 实数 轴 上 积分 为 1。 这 种 情况 下 (F * g)(x) = g(x)， 没 有 模 
糊 效 果 。 不 同 标准 差 的 高 斯 模糊 的 效果 如 图 9-3 所 示 。 
0=0.06 0=0.10 


图 9-3 不 同 标准 差 的 高 斯 模糊 的 效果 
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0=0.60 0=1.60 
?4 
一 9 9 
---- f*g | 
3 3 


图 9-3 ( 续 ) 


如 果 式 ( 9.2 ) 中 歼 曼 和 的 小 区 间 的 边界 点 都 是 整数 ,并 且 ti 取 小 区 间 的 边界 , 即 0, 圭 1, 土 2,…, 则 
所 有 At 都 为 1， 黎 曼 和 是 : 


(f * g)(X) ~ Pew f(t g(x —t) (9.6) 


式 (9.6 ) 是 离散 卷 积 , f 和 g 可 以 是 离散 函数 ,只 要 求 它 们 在 整数 值 上 有 定义 , 如 图 9-4 所 示 。 


图 9-4 f 和 g 的 离散 卷 积 在 x (= 2 ) 的 值 是 加 权 和 
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9.1.2 多 元 函数 的 卷 积 


两 个 n 元 函数 fi 民 " 一 及 和 9: 阴 "一 民 的 卷 积 是 一 个 新 的 n 元 函数 ; 


CF * g(x) = [rnf (ox — tdt= /f/f gx -dtdty .dt (9.7) 


这 是 式 (9.1 ) 的 多 元 形式 : 遍历 全 部 te R*， 以 微 元 f(t)dt 为 权 值 ， 对 g 在 x 一 t 的 值 加 权 求 
“和 ”( 积分 意义 上 )。 令 f 是 二 元 正 态 分 布 NV(0,0? 用 的 概率 密度 函数 : 


f(0) = ze 2 (9.8) 


f 在 原点 最 大 ， 随 着 t 远 离 原 点 而 衰减 。o? 越 大 则 衰减 越 慢 ， 权 重 分 布 越 分 散 ; o? 越 小 则 衰 
减 越 快 ， 权重 分 布 越 集中 。f * g 的 值 是 函数 g 的 所 有 值 的 加 权 “ 和 ”， 所 以 f * g 是 对 g 的 二 维 高 斯 
模糊 。 二 元 积分 是 二 元 黎 曼 和 的 极限 , 将 二 维 平面 切 分 成 1 x 1 网 格 ，(ti,t2) 取 网 格 的 角 , 这 种 情 
况 下 二 元 黎 曼 和 是 : 


(f + 9g)(x) 今 De 00 D0 三 ti， t2) g(xX1 — ti,X2— t2) (9.9 ) 


式 (9.9 ) 是 二 元 离散 卷 积 ， 它 要 求 F 和 9 在 二 维 整数 网 格 上 有 定义 。 令 为 图 9-5 所 示 的 二 元 
离散 函数 ， 图 中 未 显示 的 位 置 上 的 值 为 0。 


0.003 0.013 0.022 0.013 0.003 


0.013 


0.013 


0.022 0.159 0.022 


0.013 


0.003 0.013 0.022 0.013 0.003 


图 9-5 ”二 元 离散 函数 

这 个 二 元 离散 函数 在 中 心 (原点 ) 的 值 最 大 ， 向 四 周 逐 渐 衰 减 ， 在 以 原点 为 中 心 的 5x5 区 
域外 函数 值 衰减 为 0。 它 其 实 是 标准 二 元 正 态 分布 X(0, 门 在 整数 值 上 的 采样 ,将 5 x5 区 域外 的 
值 忽略 。f 称 为 二 元 离散 高 斯 函数 。 令 g 为 图 9-6 所 示 的 二 元 离散 晤 数 。 
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图 9-6 ”作为 图 像 的 二 元 离散 函数 


二 元 离散 函数 g 是 一 幅 图 像 。g 的 值 在 [0, 1] 区 间 内 ，1 为 白色 ,0 为 黑色 , 0 与 1 之 间 的 值 为 
不 同 灰 度 的 灰色 。g 在 512 x 512 区 域 以 外 的 值 为 0。 根据 式 (9.9 )，f 和 g 的 离散 卷 积 在 x 的 值 ， 是 
将 f 的 中 心 (原点 ) 对 准 x, 将 镜像 翻转 的 f 与 函数 g 在 对 应 位 置 上 的 值 相 乘 并 加 和 ， 如 图 9-7 所 示 。 


f*g(x’)= Zerzflt) x g(x —t) 


翻转 ( 且 被 反 高 } 的 f 图 像 2 


图 9-7 二 元 离散 卷 积 
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为 了 论述 简洁 , 后 文 省 去 镜像 翻转 。 只 要 记 住 , 后 文中 的 f 其 实 是 真正 参与 卷 积 运算 的 f 的 镜 


像 翻转 就 可 以 了 。 图 9-5 中 的 二 元 离散 高 斯 函数 (不 翻转 ) 与 图 9-6 中 的 g 的 卷 积 如 图 9-8 所 示 。 


0 


500 


图 9-8 ” 卷 积 图 像 


可 以 看 到 , 这 个 卷 积 运算 对 图 像 产 生 模 糊 效果 。 我 们 还 可 以 使 用 不 同方 差 的 二 元 离散 高 斯 函 
数 ， 如 图 9-9 所 示 。 


62=0:3 67= 1.2 562 三 3.0 


0.000 0.000 0.000 | 0.000 0.000 0.000 | 0.000 0.000 | 0.001 0.002 | 0.003 | 0.002 0.001 | 0.000 0.003 | 0.006 0.010 0.012 | 0.010 0.006 0.003 


0.000 0.000 0.000 | 0.001 0.000 0.000 | 0.000 0.001 | 0.005 0.017 | 0.025 | 0.017 0.005 | 0.001 0.006 0.014 0.006 


0.000 0.000 0.019 | 0.100 0.019 0.000 | 0.000 0.002 | 0.017 有 a 0.017 ，0.002 0.010 


0.000 0.001 图 … 0.001 | 0.000 0.003 | 0.025 加 0.025 0.003 0.012 


0.000 0.000 0.019 | 0.100 0.019 0.000 | 0.000 0.002 | 0.017 a 8 [0.017 | 0.002 0.010 0.038 045 0.038 国 0.010 


0.010 


0.012 


0.000 0.000 0.000 | 0.001 0.000 0.000 | 0.000 0.001 | 0.005 0.017 | 0.025 | 0.017 0.005 | 0.001 0.006 0.014 | 0.006 


0.000 0.000 0.000 | 0.000 0.000 0.000 | 0.000 0.000 | 0.001 0.002 | 0.003 | 0.002 0.001 | 0.000 0.003 | 0.006 0.010 0.012 | 0.010 0.006 0.003 


图 9-9 不 同方 差 的 二 元 离散 高 斯 函数 


方差 越 小 ， 权 重 分 布 越 集中 ， 模 糊 效果 越 弱 ; 方差 越 大 ， 权 重 分 布 越 分 散 ， 模 糊 效果 越 强 。 
9-9 中 的 三 个 二 元 离散 高 斯 函数 与 函数 g 的 卷 积 如 图 9-10 所 示 。 


图 9-10 不 同方 差 的 二 元 离散 高 斯 函数 与 图 像 的 卷 积 
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9.1.3 滤波 器 


在 数字 图 像 处 理 领 域 ， 离散 卷 积 中 的 f 称 作 卷 积 核 ( kernel ) 或 滤波 器 (filter )。f 有 值 的 区 
域 的 大 小 称 作 卷 积 核 或 滤波 器 的 尺寸 (size )， 例如 3x3、5x5 等 。 离 散 卷 积 操作 称 为 滤波 
( filtering )。 我 们 已 经 认识 了 高 斯 滤波 器 (Gaussian filter )， 它 起 到 模糊 的 作用 。PhotoShop 就 有 
高 斯 模糊 功能 。 除 高 斯 滤波 器 外 ， 还 有 其 他 很 多 滤波 器 ， 它 们 各 具 不 同 的 功能 。 本 节 介 绍 几 种 
笛 见 的 滤波 顺 。 


在 连续 的 情况 下 ， 拉 普 拉 斯 算 子 是 函数 在 x 和 y 两 个 方向 的 二 阶 偏 导数 之 和 。 图 9-11 中 的 滤 
波 器 是 二 元 离散 拉 普 拉 斯 滤波 器 ， 它 增强 函数 ( 图 像 ) 的 二 阶 导数 较 大 的 区 域 , 对 于 图 像 中 的 细 
线条 具有 强化 效果 。 


图 9-11 3x3 离 散 拉 普 拉 斯 滤波 器 


用 图 9-11 中 的 滤波 需 对 函数 9 做 滤波 ， 效 果 如 网 9-12 所 示 。 


图 9-12 3 x3 离散 拉 普 拉 斯 滤波 器 的 效果 
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方 框 模糊 ( box blur ) 滤波 器 如 图 9-13 所 示 ， 它 通过 将 周围 像素 取 平均 而 达到 模糊 效果 。 


二 二 二 二 1 
25 25 25 25 25 
并 并 并 本 
25 25 25 25 25 
1 1 1 1 1 
25 25 25 25 25 
a 十 了 本 二 
25 25 25 25 25 
小 二 十 二 二 
25 25 25 25 25 


图 9-13 5$x5 方 框 模糊 滤波 器 


用 图 9-13 中 的 方 框 模 糊 滤波 需 对 函数 g 做 滤波 ， 效 果 如 图 9-14 所 示 。 


400 500 


图 9-14 5x5 方 框 模糊 的 效果 


Sobel 滤波 器 的 功能 是 检测 图 像 中 的 边缘 。Sobel 滤波 器 分 为 纵向 和 横向 两 种 ,分 别 用 来 检测 
图 像 中 的 纵向 和 横向 边缘 ， 如 图 9-15 所 示 。 
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纵向 Sobel 滤波 器 


横向 Sobel 滤波 器 


图 9-15 ”纵向 和 横向 Sobel 滤波 器 


Sobel 滤波 器 是 离散 差分 算 子 。 以 纵向 Sobel 滤波 器 为 例 ， 它 对 当前 位 置 左 侧 的 值 施加 正 系 
数 ， 对 右 侧 的 值 施加 负 系 数 。 若 像素 位 于 灰 度 值 横向 变化 平缓 的 区 域 ， 它 左右 两 侧 的 灰 度 值 相差 
较 小 ， 这 种 情况 下 ， 纵 向 Sobel 滤波 顺 将 两 侧 抵消 ， 得 到 接近 0 的 结果 。 知 像素 位 于 两 个 区 域 之 
间 的 纵向 边缘 上 ， 它 左右 两 侧 的 灰 度 值 相差 较 大 ， 这 种 情况 下 ， 纵 向 Sobel 滤波 器 会 得 到 绝对 值 
较 大 的 结果 。 纵 向 Sobel 滤波 器 得 到 函数 横向 的 方向 导数 的 近似 。 对 函数 9 施加 纵向 和 横向 Sobel 
滤波 器 后 取 绝对 值 ， 效 果 如 图 9-16 所 示 。 


纵向 Sobel 滤波 器 
0 


纵向 Sobel 滤波 器 


300 


400 


图 9-16 ”纵向 和 横向 Sobel 滤波 器 的 效果 
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横向 Sobel 滤波 器 


100 


图 9-16 ( 续 ) 


黑色 区 域 对 应 原始 图 像 中 非 边缘 的 区 域 ， 较 亮 的 线条 对 应 原始 


波 需 检测 纵向 边缘 ， 横 向 Sobel 滤波 顺 检 测 横向 边缘 ， 者 将 两 种 Sobel 滤波 需 的 


相 加 ， 则 可 以 检测 原始 图 像 中 的 各 向 边缘 ， 如 图 9-17 所 示 。 


0 


100 


Sobel 滤波 器 检测 图 像 边缘 


图 9-17 


在 机 顺 视觉 领域 ,滤波 锅 可 以 用 来 提取 


像 中 


横向 Sobel 滤波 器 


墙 上 是 否 有 门 ， 将 图 像 分 为 无 门 和 有 门 两 类 ， 这 是 一 个 二 分 类 


图 像 中 的 边缘 。 纵 向 Sobel 滤 
结果 (绝对 值 ) 


图 像 特征 。 举 一 个 简单 的 例子 : 问题 的 目标 是 判断 图 


问题 。 我 们 要 构建 一 个 模型 ， 
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这 


图 像 为 输入 ， 输 出 图 像 中 有 门 的 概率 。 


我 们 的 模型 如 图 9-18 所 示 ,， 它 对 图 像 施加 纵向 和 横向 Sobel 滤波 右 ， 得 到 两 幅 边 缘 图 , 求 两 
幅 边 缘 图 的 所 有 像素 值 的 平方 和 ， 然 后 施加 Tanh 激活 函数 。 


图 9-18 用 Sobel 滤波 器 提取 特征 识别 墙 上 的 门 


墙 上 无 门 的 图 像 是 一 片 音色， 缺乏 边缘 。 对 于 无 门 的 图 像 ， 两 个 Sobel 滤波 器 的 输出 的 绝对 
值 较 小 。 相 反 ， 有 门 的 图 像 有 清晰 的 边缘 ， 两 个 Sobel 滤波 器 能 够 检测 出 这 些 边缘 ， 它 们 的 部 分 
输出 的 绝对 值 较 大 。 将 两 个 Sobel 滤波 器 的 输出 的 平方 和 送 给 Tanh 函数 ，Tanh 的 输入 在 无 门 时 
较 小 ， 输 出 接近 0; Tanh 的 输入 在 有 门 时 较 大 ， 输 出 接近 1。 把 Tanh 的 输出 解释 为 有 门 的 概率 ， 
我 们 就 得 到 了 一 个 识别 图 像 中 墙 上 是 否 有 门 的 分 类 器 。 


这 个 模型 未 经 验证 ， 但 它 说 明了 滤波 器 的 作用 。 利 用 Sobel 滤波 带 ， 模 型 能 从 图 像 中 提取 
“边缘 ”这 一 特征 。 不 论 门 的 边缘 出 现在 图 像 的 什么 位 置 , 模型 都 能 将 其 检测 出 来 , 并 反映 在 Tanh 
的 输出 中 。 这 个 模型 其 实 是 一 个 手工 构造 的 CNN， 两 个 Sobel 滤波 器 构成 它 的 卷 积 层 。 


传统 上 ， 各 种 滤波 需 都 是 人 为 有 目的 地 设计 出 来 的 。 上 述 例子 中 ,我 们 知道 Sobel 滤波 顺 的 
功能 ， 有 意 用 它 提取 我 们 认为 有 用 的 特征 一 一 边缘 。 如 果 不 由 人 来 设计 滤波 器 ,而 是 从 数据 中 训 
练 滤波 器 会 怎样 呢 ?” 这 就 是 CNN 的 思想 。 
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9.2 ” 卷 积 神经 网 络 的 组 件 

CNN 不 是 指 某 一 特定 的 网 络 结构 ， 具 有 卷 积 层 的 神经 网 络 都 可 以 称 作 CNN。 除 卷 积 层 外 ， 
CNN 还 有 其 他 种 类 的 层 ， 例 如 激活 层 、 池 化 层 、 全 连接 层 等 。 将 这 些 层 以 不 同 规模 、 不 同方 式 
组 合 大 加 ， 可 以 构成 无 穷 种 不 同 的 CNN。 本 节 我 们 介绍 CNN 的 各 种 层 和 组 件 。 


9.2.1 卷 积 层 


原则 上 CNN 可 以 接受 任意 维度 的 输入 ， 因 为 卷 积 可 以 施加 于 任意 函数 ， 但 以 图 像 为 输入 最 
为 常见 ， 所 以 后 文 只 讨论 接受 图 像 的 CNN。 但 是 要 注意 ， 图 像 数 据 通常 是 三 维 的 : 除了 图 像 的 
宽 与 高 之 外 , 还 有 通道 (channel ), 例如 RGB 彩色 图 像 包含 三 个 通道 , 对 应 红 、 绿 和 蓝 三 种 颜色 。 
每 个 通道 是 二 维和 矩阵 ， 和 矩阵 元 素 是 特定 位 置 上 相应 颜色 的 灰 度 值 。 所 以 宽 为 w、 高 为 hn 的 RGB 彩 
色 图 像 其 实 是 w x h x 3 的 数据 阵列 。 黑 白 图 像 是 单 通道 的 ， 它 是 w x h x 1 的 数据 阵列 。CNN 可 
以 接受 任意 通道 数量 的 图 像 ，3 通道 最 常见 。 


卷 积 层 对 输入 图 像 的 多 个 通道 一 起 施加 离散 卷 积 运算 。 如 果 卷 积 核 的 尺寸 是 n x n 且 输入 图 
像 有 d 个 通道 , 则 卷 积 核 其 实 是 n x n x d 的 数据 阵列 。 以 卷 积 核 为 权重 , 对 图 像 以 (x,y) 为 中 心 的 
nxn 区 域内 d 个 通道 共 n x n x d 个 值 加 权 求 和 再 加 偏 置 ， 就 得 到 (x, y) 位 置 的 输出 。 对 输入 图 像 
的 所 有 位 置 执行 这 种 操作 ， 就 得 到 该 卷 积 核 的 输出 图 像 ， 如 图 9-19 所 示 。 


= 


输入 图 像 输出 图 像 


图 9-19 CNN 的 卷 积 计算 


卷 积 核 的 输出 是 一 个 单 通道 图 像 ， 称 为 一 个 特征 图 (feature map )。 注意 ， 特 征 图 的 值 不 一 
定 是 [0, 255] 区 间 内 的 整数 , 不 一 定 是 合法 的 灰 度 值 。 称 它们 为 “图 像 ”只 是 由 于 数据 的 空间 排列 。 
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求 卷 积 时 ， 输 入 图 像 边 缘 的 四 周 有 可 能 缺失 ， 常 用 的 填充 方式 有 如 下 4 种 。 


口 舍弃 (valid ): 抛弃 边缘 位 置 ，; 

口 补 零 (same ): 用 0 值 填充 缺失 的 值 ; 

口 翻转 〈 wrap ): 类 似 吃 豆 人 游戏 ， 若 越过 边界 则 从 对 侧 进入 图 像 ; 
口 镜像 (mirror ): 按 边 界 取 镜 像 ， 以 镜像 对 侧 的 值 填充 缺失 值 。 


“舍弃 ”与 其 他 方式 不 同 ， 它 会 导致 输出 特征 图 的 尺寸 缩小 。 特 征 图 的 尺寸 还 与 男 一 个 设计 
选择 一 一 步 幅 (stride ) 有 关 。CNN 允许 卷 积 操作 不 对 图 像 的 每 个 位 置 都 执行 ， 而 是 每 “ 步 幅 ” 
个 位 置 ( 即 每 隔 “ 步 幅 减 1” 个 位 置 ) 执行 一 次 。 可 分 别 设置 横向 和 纵向 步 幅 ， 步 幅 影 响 特征 图 
的 尺寸 ,车 步 幅 为 2， 则 每 隔 一 个 位 置 计算 一 个 输出 ,特征 图 的 尺寸 缩小 为 输入 图 像 的 一 半 。 步 
幅 为 1 或 2 的 情况 如 图 9-20 所 示 。 


图 9-20” 步 幅 为 1 与 步 幅 为 2 

一 个 卷 积 层 可 以 有 多 个 卷 积 核 ， 每 个 卷 积 核 都 能 得 到 一 个 特征 图 。CNN 要 求 同 一 卷 积 层 的 
多 个 卷 积 核 的 尺寸 、 填 充 方式 和 步 幅 都 相同 ,所 以 它们 的 特征 图 尺寸 相同 ,县 加 在 一 起 可 认为 是 
一 幅 图 像 的 多 个 通道 ， 这 幅 多 通道 图 像 就 是 该 卷 积 层 的 输出 图 像 。 


卷 积 层 有 多 少 卷 积 核 就 有 多 少 特 征 图 , 每 个 特征 图 都 是 输出 图 像 的 一 个 通道 。 卷 积 层 的 卷 积 
核 数 、 特 征 图 数 和 输出 图 像 的 通道 数 是 同一 个 数 。 后 文 在 谈 到 卷 积 层 的 配置 时 使 用 “ 卷 积 核 数 ”， 
谈 到 卷 积 层 的 输出 时 使 用 “通道 数 ”或 “特征 图 数 "， 它 们 指 的 都 是 同一 个 数量 。 


举 一 个 例子 ， 输 入 是 500 x 400 x 3 的 图 像 ， 卷 积 层 包含 32 个 卷 积 核 ， 卷 积 核 尺 寸 是 3 x 3， 
补 零 填 充 ， 横 向 和 纵向 步 幅 都 为 2， 则 该 卷 积 层 的 参数 个 数 是 32x (3x3x3 + 1)。 加 上 1 是 因 
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为 每 个 卷 积 核 带 一 个 偏 置 。 


因为 横向 和 纵向 步 幅 都 为 2， 每 隔 一 个 像素 计算 一 个 输出 ， 所 以 特征 图 的 宽 和 高 都 是 输入 图 
像 的 一 半 ,， 其 尺寸 是 250 x 200。 因 为 有 32 个 卷 积 核 ， 所 以 该 卷 积 层 输 出 32 个 特征 图 , 将 它们 视 
为 32 个 通道 ， 该 卷 积 层 的 输出 就 是 250 x 200 x 32 的 图 像 。 


卷 积 层 不 是 全 连接 的 , 它 根 据 输 入 的 空间 位 置 形成 一 簇 簇 连接 , 并 且 这 些 连接 簇 共 享 一 套 权 
值 ， 即 卷 积 核 ， 这 称 为 权 值 共享 ( weight sharing )。 权 值 共享 大 大 减少 了 参数 数量 。 以 上 述 例子 
为 例 ， 该 卷 积 层 有 250 x 200 x 32 (= 1.6x 105 ) 个 神经 元 ， 有 500 x 400 x3 个 输入 ， 若 是 全 连接 
的 话 将 有 250 x 200 x 32 x 500x400x3+250x200x32 (二 9.6x101 ) 个 参数 ， 而 参数 共享 的 卷 
积 层 只 有 896 个 参数 。 


卷 积 层 的 卷 积 核 就 是 滤波 右 ， 这 些 滤 波 器 并 非 人 为 设计 ， 而 是 训练 而 得 。 可 以 观察 一 个 训练 
好 的 卷 积 层 的 各 个 卷 积 核 ， 有 时 能 看 出 它们 的 功能 , 例如 边缘 检测 等 ， 下 一 章 中 我 们 会 看 到 这 样 
的 例子 。 卷 积 层 的 整体 示意 图 如 图 9-21 所 示 。 


一 


输入 图 像 输出 图 像 
图 9-21 卷 积 层 示意 图 
9.2.2 激活 层 


激活 层 〈activation layer ) 其 实 就 是 对 上 一 层 神 经 元 的 输出 施加 激活 函数 。 可 以 选择 前 文 介 
绍 的 任何 一 种 激活 函数 ， 但 在 现代 深度 学 习 领 域 ，ReLU 及 其 变 体 最 为 常用 。 卷 积 层 的 神经 元 执 
行 的 是 仿 射 函数 ， 与 激活 层 合 起 来 相当 于 一 个 传统 神经 元 。 激 活 层 如 图 9-22 所 示 。 
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@ f >@ 
> > > > 
@ f >@ 
@ f >@ 
@ f >@ 
输入 图 像 输出 图 像 


图 9-22 激活 层 示意 图 


9.2.3 池 化 层 


池 化 层 (polling layer ) 用 小 区 域 覆 盖 输 入 图 像 的 每 个 通道 ， 从 每 个 小 区 域 计 算出 一 个 值 ， 这 
个 小 区 域 称 作 池 化 窗口 。 池 化 层 也 有 扩 才 、 填 充 方式 和 步 幅 三 个 设计 选择 。 矿 才 就 是 池 化 窗口 的 
大 小 , 填充 方式 和 步 幅 的 含义 与 卷 积 层 一 样 。 池 化 层 从 以 输入 图 像 每 个 像素 为 中 心 的 池 化 窗口 中 
计算 出 一 个 值 ， 计 算 方 式 有 两 种 。 


口 最 大 值 池 化 (max pooling ): 选择 池 化 窗口 中 的 最 大 值 ; 
口 平均 值 池 化 〈average pooling ): 计算 池 化 窗口 中 所 有 值 的 平均 值 。 


延续 之 前 的 例子 ， 在 激活 层 后 连接 一 个 最 大 值 池 化 层 。 若 该 池 化 层 的 尺寸 是 2 x 2， 补 零 填 
充 ， 横 向 和 纵向 步 幅 都 是 2， 则 该 池 化 层 的 输出 是 一 幅 125 x 100 x 32 的 图 像 。 池 化 运算 对 图 像 
的 每 个 通道 分 别 进行 ， 故 输出 图 像 的 通道 数 不 变 。 


池 化 层 没 有 参数 , 但 是 作为 计算 图 的 一 个 节点 , 它 需要 计算 对 每 一 个 输入 值 的 
个 池 化 层 神经 元 的 输入 是 xi,x2,…,xn， 平 均值 池 化 的 计算 是 : 


(xxa Xn) = 7 EEL (9.10) 


它 对 的 偏 导数 是 : 


Of (X1X2°",Xn) 二 二 (9.11) 


Oxj n 
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最 大 值 池 化 的 计算 是 : 


f (xX1, X2,***, Xn) 二 max(X1, X2,**, Xn) (9.12) 


max 不 是 一 个 连续 函数 ， 如 何 求 偏 导 数 ? 当 xj,x2,… ,x 都 大 于 0 时 ,可 以 用 一 个 连续 函数 来 


近似 max: 


~ a tt xtt1 了 xtt1 
max(xi, X2 ,Xn) Tf Xi1,X2,%, Xn) = 3 十 之 二 BE 三 St (9.13) 
注意 式 (9.13 ) 的 第 j 项 
t+1 
二 r= 2 (9.14) 
日 


假设 xu xz xn 中 有 K 个 值 达到 max， 如 果 刀 小 于 max， 当 t 趋 近 于 无 穷 时 ， 式 〈9.14 ) 趋 近 
于 0; 如 果 xj 等 于 max， 则 分 母 中 有 k 个 项 为 1， 其余 项 小 于 1， 当 t 趋 近 于 无 穷 时 ， 小 于 1 的 项 都 
趋 近 于 0， 式 (9.14 ) 趋 近 于 区 。 

所 以 当 t 趋 近 于 无 穷 时 , 式 (9.13 ) 中 有 k 个 项 趋 近 于 对 ， 其 他 项 都 趋 近 于 0， 即 式 (9.13 ) 
趋 近 于 max。 当 t 非 常 大 时 , 式 (9.13 ) 能 够 很 好 地 模拟 max 函 数 。 现在 我 们 求 A(xi,x2,… ,Xn) 对 xj 的 


偏 导数 : 


Of (x1,X2,%,Xn) = (t+Dxf Dx tx} 1 2 计 +t 地 (1 a 2 (9 15 ) 
Ox Gx = Txt xj 了 好 


式 (9.15 ) 最 右 的 第 一 项 是 : 


了 = 一 : (9.16 ) 


当 t 趋 近 于 无 穷 时 ， i 式 (9.16 ) 趋 近 于 it， 否 则 趋 近 于 0。 考 察 式 (9.15 ) 最 右 
第 二 项 的 括号 中 的 部 分 , 若 刀 等 于 max,， 其 极限 是 0, 否则 其 极限 是 有 穷 值 。 考 察 括号 外 的 因子 : 


A (9.17) 


欲求 式 ( 9.17 ) 的 极限 ， 运 用 洛 必 达 法 则 ， 对 分 子 和 分 母 求 导 : 


(9.18) 


xt 
> 
limy ,ow ts 
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若 刀 等 于 max， 该 极限 有 穷 ， 和 否则 该 极限 为 0。 所 以 当 t 趋 近 于 无 穷 时 ， 式 (9.15 ) 最 右 第 二 
项 趋 近 于 0。 


综合 起 来 ， 当 t 趋 近 于 无 穷 时 ， 者 妇 等 于 max， 式 〈9.15 ) 趋 近 于 i， 否 则 趋 近 于 0。 也 就 是 说 
当 t 非 常 大 时 ， 若 %j 等 于 max， 则 (xi,X2,… ,Xn) 对 加 的 偏 导数 近似 :， 否 则 近似 为 0。 于 是 最 大 值 
池 化 对 输入 的 偏 导 可 以 取 : 


Omax(x1x2 Kn) | Xi 二 max(X1, X2，… Xn) (9.19) 


Ox 0, Xi < max(Xx1, X2,°*, Xn) 

注意 ， 刚 刚 的 讨论 要 求 所 有 输入 值 都 大 于 0， 当 输入 值 可 正 可 负 时 ， 可 以 认为 max 函 数 近似 

于 复合 函数 logf(e", ex,…,em)， 其 中 的 输入 都 是 正 值 。 根 据 链 式 法 则 ， 若 是 最 大 值 ， 则 偏 

导数 近似 为 ef "二: em = ; 若 罗 不 是 最 大 值 ， 则 偏 导数 近似 为 jax 0. emsx = 0。 最 大 值 池 化 
层 如 图 9-23 所 示 。 


Ep AE NAY Ep AE NP A YY 
2 2 


输入 图 像 输出 图 像 


图 9-23 ”最 大 值 池 化 层 示意 图 
9.2.4 全 连接 层 


全 连接 层 无 视 输 入 数据 的 空间 结构 , 它 的 每 一 个 神经 元 与 每 一 个 输入 连接 , 对 它们 施加 仿 射 
函数 加 激活 函数 。 全 连接 层 一 般 位 于 CNN 的 最 后 , 典型 的 CNN 交 蔡 全 加 奉 干 卷 积 层 ( 包括 激活 
层 ) 和 池 化 层 ， 最 后 破坏 数据 的 空间 结构 ， 将 数据 展开 为 向 量 ， 连 接 到 全 连接 层 。 


前 文 提 到 ， 卷 积 层 可 以 视 作 特征 提取 需 ,， 多 卷 积 层 相当 于 进行 多 轮 特征 提取 , 在 此 过 程 中 压 
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缩 图 像 尺 寸 ,增加 通道 数 ， 逐 渐 提 高 特征 的 抽象 程度 ， 最 终 形成 特征 向 量 ， 提 交 给 全 连接 层 。 全 
连接 层 如 图 9-24 所 示 。 


Ra 


图 9-24 全 连接 层 示意 图 


9.2.5 ”跳跃 连接 


跳跃 连接 (skip connection ) 又 称 短 路 连接 ( shortcut connection )， 它 路 过 若干 层 ， 将 输入 直 
接 与 这 几 层 最 终 的 输出 相 加 ， 如 图 9-25 所 示 。 


输入 


漆 航 中 中 


图 9-25 ”跳跃 连接 示意 图 


9.2 ” 卷 积 神经 网 络 的 组 件 235 


要 使 相 加 可 行 , 被 跨 过 的 层 不 能 改变 数据 形状 , 即 输 出 图 像 的 尺寸 和 通道 数 必须 与 输入 图 像 
一 致 。 也 可 以 给 跳跃 连接 本 身 添加 一 个 卷 积 层 , 该 卷 积 层 调整 图 像 尺 寸 和 通道 数 ， 以 保证 两 条 路 
径 的 数据 形状 相同 ， 如 图 9-26 所 示 。 


输入 : 100 x 100 x 32 


卷 积 层 ， 卷 积 村 水 
职 层 ， 卷 积 核 : 64 
| 
激活 层 卷 积 层 ， 卷 积 核 : 64， 步 幅 : 2 


最 大 值 池 化 ， 步 幅 : 2 


50 X 50 X 64 


50x50x64 


偷 出 : 50 x 50 x 64 


ES 


图 9-26 ”调整 图 像 太 十 和 通道 数 的 跳跃 连接 


被 跨 过 的 层 称 为 短路 层 ， 短 路 层 学 习 的 是 目标 与 输入 的 差 一 一 残 差 (residual )， 这 称 为 残 差 
学 习 ( residual learning ), 神经 网 络 的 参数 一 般 被 初始 化 为 接近 0 的 值 ,短路 层 初始 时 的 输出 接近 0， 
与 输入 相 加 后 近似 等 于 输入 , 所 以 带 跳 跃 连接 的 短路 层 在 训练 开始 时 接近 恒 等 映射 。 深度 学 习 的 
网 络 深度 较 大 , 中 间 若 干 层 的 局 部 目标 函数 通常 离 恒 等 映射 不 远 , 从 恒 等 映射 出 发 学 习 局 部 目标 
函数 ， 要 比 从 “ 零 函 数 ” 出 发 学 习 得 更 快 ， 所 以 残 差 学 习 可 以 提高 训练 效率 。 


假如 短路 层 因为 某 种 原因 训练 得 很 慢 , 跳跃 连接 可 以 把 短路 层 之 前 部 分 的 输出 直接 传递 给 短 
路 层 之 后 的 部 分 , 于 是 短路 层 训练 缓慢 不 会 影响 网 络 前 后 其 余部 分 的 训练 。 残 差 学 习 提 高 了 训练 
深层 网 络 的 可 行 性 ， 残 差 网 络 〈ResNet ) 就 是 一 种 运用 跳跃 连接 进行 残 差 学 习 的 极 深 CNN。 


本 节 介 绍 了 CNN 的 常用 组 件 , 一 般 CNN 遵循 这 样 的 模式 : 接受 输入 图 像 ， 交替 使 用 卷 积 层 
( 含 激活 层 ) 和 池 化 层 ， 利 用 步 幅 和 卷 积 核 数量 逐渐 减 小 图 像 太 寸 并 增加 通道 数 ， 最 后 将 数据 展 
开 后 连接 全 连接 层 。 


9-27 展示 了 一 种 CNN 一 一 VGG16， 它 的 5 个 最 大 值 池 化 层 的 步 幅 都 为 2， 将 图 像 尺寸 压 
缩 一 半 。5 个 池 化 层 隔 开 5 组 卷 积 层 ， 每 组 的 卷 积 层 数量 分 别 为 : 2、2、3、3、3， 每 组 卷 积 层 最 
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终 的 输出 尺寸 和 通道 数 标记 在 图 中 。 最 后 一 个 池 化 层 后 面 连接 三 个 全 连接 层 ， 神 经 元 数 分 别 为 : 
4096 、4096 和 1000， 最 后 施加 SoftMax 函数 。VGG16 中 带 参数 的 层 ( 卷 积 层 和 全 连接 层 ) 共有 
16 层 ， 这 是 它 的 名 称 的 来 历 。VGG16 是 一 个 典型 的 深度 CNN， 下 一 章 还 会 更 详细 地 介绍 它 。 


224x224x3 224x224x64 


28x28x 512 OV 
X X 
14x44x517? 1x1x4096 1x1x1000 


多 卷 积 层 +ReLU 

急 最 大 值 池 化 
全 连接 层 +ReLu 
Softmax 


图 9-27 VGG16 示 意图 


9.3 深度 学 习 的 正则 化 方法 


前 文 介绍 过 , 高 自由 度 的 模型 容易 陷入 过 拟 合 , 需要 对 其 施 以 正则 化 来 限制 其 自由 度 。CNN 
以 及 其 他 深度 神经 网 络 深度 大 、 参 数 多 , 它们 的 自由 度 远 远 高 于 传统 机 器 学 习 模型 。 为 了 使 它们 
免 于 过 拟 合 , 需要 大 量 的 训练 数据 以 及 强大 的 正则 化 方法 。 除 了 传统 机 器 学 习 和 神经 网 络 的 正则 
化 方法 ， 例 如 我 们 介绍 过 的 C1 和 £2 正则 化 、 提 前 停止 等 ， 深 度 学 习 还 有 一 些 特有 的 正则 化 方法 ， 
本 节 介 绍 其 中 的 几 种 。 


9.3.1 权 值 衰减 


经 典 的 C1 和 £, 正 则 化 可 以 应 用 于 CNN, 一 般 只 对 权 值 施加 ,不 对 偏 置 施加 。 将 CNN 的 全 体 
权 值 排列 成 一 个 向 量 w， 构 造访 正则 项 : 


Oz,(w) = 和 lwlz (9.20) 
或 1 正则 项 ; 


Qc (WwW) = 47i1|wil (9.21) 
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4 是 正则 化 强度 。 将 正则 项 加 在 损失 值 (例如 交叉 炉 ) 之 上 , 形成 带 正则 项 的 损失 函数 。 正 像 
我 们 介绍 过 的 ，£L1 和 £2 正则 化 表达 了 对 参数 先 验 分 布 的 假设 ， 最 小 化 带 正则 项 的 损失 函数 相当 于 
最 大 化 参数 的 后 验 概率 。 正 则 化 越 强 , 则 参数 先 验 分 布 的 方差 越 小 , 最 大 后 验 解 越 接近 0。L1 和 L 
正则 化 倾向 于 得 到 绝对 值 较 小 的 权 值 。 在 深度 学 习 领 域 ， 它 们 被 称 为 权 值 衰减 〈weight decay )。 


四 
加 


9.3.2 Dropout 

Dropout 技术 很 简单 , 但 在 实践 中 有 很 好 的 效果 。 它 的 做 法 是 : 在 梯度 下 降 的 每 一 次 迭代 时 ， 
将 每 个 神经 元 按 概率 p 从 网 络 中 去 掉 。 若菜 神经 元 在 一 次 迭代 时 命中 概率 p, 则 该 神经 元 不 参与 前 
向 传播 和 反 疝 传播 及 梯度 下 降 。 概 率 p 称 为 Dropout 率 (Dropout rate )。 


Dropout 阻止 某 个 神经 元 成 为 关键 节点 。 训 练 时 任何 一 个 神经 元 都 有 可 能 缺席 ， 这 迫使 其 他 
神经 元 承担 该 缺席 神经 元 的 责任 , 将 责任 分 散 。 神 经 元 的 输入 是 其 他 神经 元 的 输出 ,它们 有 可 能 
缺席 ， 于 是 神经 元 不 会 过 重地 依赖 某 个 特定 输入 。 


工本 


有 一 个 重要 的 技术 细节 是 ， 如 果 在 训练 时 每 个 神经 元 以 概率 p 缺 席 ， 那 么 统计 意义 上 每 个 神 
经 元 训练 时 的 输入 数量 是 预测 时 的 1- 2p 倍 ， 神 经 元 在 预测 时 接受 的 信号 强度 是 训练 时 的 
1/(1 一 p)。 为 纠正 这 种 偏差 ,可 在 训练 完成 后 将 所 有 权 值 乘 上 1 - p， 将 预测 时 的 信号 强度 拉 回 
训练 时 的 水 平 。 另 一 种 办 法 是 训练 时 将 每 个 神经 元 的 输出 乘 以 1/(1 一 p)， 放 大 输出 以 保持 训练 
时 和 预测 时 信号 强度 相同 。 这 两 种 办 法 并 不 等 价 ， 但 是 效果 相似 。 


可 以 从 模型 集成 的 角度 来 解释 Dropout 的 作用 。 模 型 集成 有 许多 形式 ， 最 简单 的 一 种 是 ， 训 
练 多 个 模型 ， 预 测 时 取 它们 结果 的 平均 。 模 型 集成 的 作用 是 降低 方差 、 防 止 过 拟 合 。 一 般 而 言 ， 
参与 集成 的 模型 越 独立 越 好 , 可 以 采用 有 放 回 采样 ,为 每 一 个 参与 集成 的 模型 构造 独特 的 训练 集 ， 
这 种 方式 称 为 BAGGING ( bootstrap aggregating )。 


假设 神经 网 络 有 N 个 神经 元 ， 每 个 神经 元 有 参与 或 缺席 两 种 情况 ， 则 可 以 形成 2* 种 不 同 的 神 
经 网 络 。 每 一 次 迭代 都 相当 于 用 一 部 分 样本 (一 个 Mini Batch ) 训练 其 中 一 种 神经 网 络 , 进行 K 次 
迭代 就 训练 了 K 个 神经 网 络 。 预 测 时 全 体 神经 元 都 参与 ， 相 当 于 对 K 个 神经 网 络 取 平均 ， 这 可 以 
视 为 BAGGING 过 程 。Dropout 率 越 大 ， 每 次 迭代 缺席 的 神经 元 越 多 ， 各 神经 网 络 之 间 的 差别 越 
大 。 所 以 ， 提 高 Dropout 率 起 到 的 作用 是 降低 方差 、 防 止 过 拟 合 。 


9.3.3” 权 值 初始 化 


在 初始 化 权 值 时 ， 最 好 保证 各 个 激活 层 神 经 元 的 输出 值 (简称 “激活 值 ”) 有 较 好 的 分 布 。 
如 果 采 用 双 侧 饱和 的 激活 函数 ， 例 如 Logistic， 要 保证 激活 值 不 能 集中 于 0 和 1， 否则 大 部 分 神 
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经 元 处 于 饱和 区 域 ， 梯 度 过 小 。 激 活 值 的 方差 应 该 较 大 ， 这 样 初始 时 神经 元 之 间 有 较 大 差异 性 ， 
可 防止 它们 协同 变化 。 研 究 证 明 : 引入 神经 元 所 在 层 的 输入 连接 数 nin〈 扇 人 ) 和 输出 连接 数 nout 
〈《 扇 出 ), 并 以 特定 方式 初始 化 权 值 和 偏 置 ,， 可 保证 激活 值 有 较 好 的 分 布 , 本 书 省 略 证 明 。“Xavier 
初始 化 ”以 正 态 分 布 V(0,o?) 初 始 化 某 层 的 权 值 ， 其 中 : 


2 


nintnout 


da = (9.22 ) 


或 者 以 [7r,r] 上 的 均匀 分 布 初始 化 基层 的 权 值 ， 其 中 : 


r= | 6 (9.23 ) 
nintnout 


“Xavier 初始 化 ” 适用 于 Logistic 这 种 在 原点 附近 接近 线性 , 在 正 负 两 侧 饱 和 的 激活 函数 。 对 
ReLU 及 其 变 体 可 采用 “He 初始 化 ”， 它 以 正 态 分 布 V(0,o?) 初 始 化 某 层 的 权 值 ， 其 中 : 


o= | (9.24 ) 
min 十 7out 


或 者 以 [7,r] 上 的 均匀 分 布 初始 化 式 层 的 权 值 ， 其 中 : 


r= | 2 (9.25 ) 
nintnout 


9.3.4 ” 批 标 准 化 


在 深度 神经 网 络 的 训练 过 程 中 , 网 络 后 部 的 层 的 输入 分 布 会 因 前 面 层 的 权 值 和 偏 置 的 更 新 而 
持续 发 生变 化 ,后 部 的 层 需要 不 停 适 应 输入 分 布 的 变化 , 造成 训练 困难 ， 这 称 为 内 部 协 变量 漂移 
( internal covariate shift，ICS )。 批 标准 化 〈batch normalization ，BN ) 是 一 种 对 抗 ICS 的 技术 。 
可 以 将 BN 视 为 一 层 ， 插 在 激活 层 之 前 。BN 将 激活 函数 的 输入 值 进行 标准 化 ， 然 后 再 次 平移 和 
缩放 。 


训练 时 ， 某 个 激活 层 神经 元 在 一 个 Mini Batch 中 得 到 M 个 输入 值 : w (i = 1,…,M )，M 是 
Mini Batch 的 样本 数量 ，BN 首先 将 这 些 输入 值 标准 化 : 


t= EE, i=1,.…,M (9.26 ) 


2 
of +e 


e 是 防止 分 母 为 0 的 一 个 极 小 值 。 必 是 一 个 Mini Batch 的 所 有 输入 值 的 均值 : 


bo = Ea (9.27) 
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史 是 一 个 Mini Batch 的 所 有 输入 值 的 样本 方差 : 
of = pb Ch — Lp)? (9.28 ) 
标准 化 后 ，BN 再 用 y 和 有 两 个 参数 将 于 〈i = 1,…,M ) 进行 平移 和 缩放 : 


Zi=yY@+B, i=1,…,M (9.29 ) 


最 终 以 zi (i = 1,…,M ) 作为 该 激活 层 神经 元 的 输入 。BN 有 4 个 参数 jo、 虽 、Y 和 6 。y 和 Pp 参 
与 训练 。 训 练 时 ,J 和 3 对 每 一 个 Mini Batch 计算 。 预 测 时 使 用 的 均值 和 样本 方差 可 在 训练 时 用 
滑动 平均 进行 估计 : 


4= (1— a)ht+aup (9.30) 
以 及 
o2?=(1—aQa)o?+ao? (9.31) 


0 <a < 1 是 遗忘 因子 。 
9.3.5 ”数据 增强 


再 强大 的 正则 化 方法 也 弥补 不 了 数据 的 缺失 , 深度 神经 网 络 是 机 器 学 习 领 域 馆 今 最 复杂 、 自 
由 度 最 高 的 模型 ， 它 需要 大 量 训练 样本 。 数 据 增强 〈 data augment ) 是 一 种 简单 而 有 效 的 正则 化 
技术 。 简单 来 说 ,数据 增强 就 是 用 已 有 的 样本 生成 新 的 样本 。 对 于 图 像 来 说 , 数据 增强 就 是 用 已 
有 的 图 像 生成 新 的 图 像 。 生 成 新 图 像 的 操作 包括 剪裁 、 平 移 、 旋 转 、 镜 像 翻转 、 调 整 亮度 及 对 比 
度 等 , 或 同时 施加 多 个 操作 。 要 保证 变化 后 的 图 像 与 原 图 像 仍 属于 同一 个 类 别 ， 即 变化 不 影响 图 
像 内 容 的 本 质 。 


新 图 像 都 来 源 于 已 有 的 图 像 , 某 种 意义 上 数据 增强 并 没有 提供 新 的 信息 , 但 是 图 像 的 各 种 变 
化 引入 了 不 影响 图 像 内 容 的 噪声 ,例如 , 旋转、 调整 对 比 度 或 镜像 翻转 都 不 改变 图 像 中 物体 的 类 
别 ， 这 可 以 避免 模型 受到 非 本 质 特征 的 干扰 ， 防 止 过 拟 合 。 


9.4 小 结 


卷 积 神经 网 络 得 名 于 卷 积 , 本 章 首先 简 述 了 连续 和 离散 卷 积 的 原理 , 并 从 滤波 器 角度 介绍 了 
卷 积 在 数字 图 像 处 理 领 域 的 应 用 。 在 前 深度 学 习 时 代 ,， 人 们 使 用 各 种 人 为 设计 的 滤波 器 从 岁 像 中 
提取 特征 ， 青 将 特征 提交 给 传统 机 带 学 习 模 型 。 
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可 以 认为 CNN 的 卷 积 层 是 可 训练 的 滤波 器 ， 它 们 在 训练 中 习 得 某 种 有 用 的 功能 ， 成 为 特征 


提取 器 。 卷 积 层 、 激 活 层 、 池 化 层 交 替 受 加 ,逐步 提取 更 高 抽象 层次 的 特征 ， 最 终 将 特征 提交 给 
全 连接 层 。 全 连接 层 就 相当 于 以 网 络 前 部 提取 的 特征 向 量 为 输入 的 全 连接 神经 网 络 , 这 就 是 典型 


的 CNN 结构 。 


无 论 多 么 复杂 的 CNN, 它 仍然 是 一 个 计算 图 , 可 以 运用 计算 图 自动 求 导 加 梯度 下 降 来 训练 。 
有 了 前 文 的 铺垫 ， 读 者 已 经 能 够 理解 任何 CNN 的 训练 算法 。 本 章 还 介绍 了 一 些 深度 学 习 特 有 的 
正则 化 技术 ， 例 如 Dropout、 权 值 初始 化 、 批 标准 化 、 数 据 增强 等 。 下 一 章 我 们 将 介绍 几 种 经 典 
的 CNN。 


经 典 CNN 


上 一 章 我 们 介绍 了 CNN 的 原理 及 其 各 种 组 件 , 真实 世界 的 CNN 都 是 这 些 组 件 的 组 合 。 本章 
按时 间 顺 序 介绍 5 种 经 典 的 CNN: LeNet-5、AlexNet、VGGNet、GoogLeNet 和 ResNet。 这 5 种 
CNN 各 具 特 色 ， 除 了 深度 不 断 加 深 外 ， 还 引入 了 如 Inception 模块 和 残 差 单 元 这 样 的 新 结构 。 


这 几 种 CNN (除了 LeNet-5 ) 在 2012~2015 年 的 ILSVRC 竞赛 中 不 断 创造 新 的 好 成 绩 。 若 与 
物种 的 演化 进行 类 比 ， 则 竞赛 可 以 看 作 一 种 选择 压力 ， 驱 使 人 们 尝试 各 种 新 的 网 络 结构 和 技术 。 
在 竞赛 中 表现 优异 的 网 络 获得 生存 优势 ， 并 在 现 有 基础 上 分 化 、 变 形 、 发 展 ， 犹 如 生物 的 演化 。 
本 章 我 们 尝试 像 古生物 学 家 那样 ， 从 极 有 限 的 标本 中 色 勒 CNN 的 演化 趋势 ， 分 析 使 它们 的 表现 
得 到 提升 的 结构 特点 。 


10.1 LeNet-5 


LeNet-5 是 Yann LeCun、Leon Bottou、Yoshua Bengio 和 Patrick Haffner 于 1998 年 的 论文 Gradient 
Based Learning Applied to Document Recognition 中 提出 的 一 种 早期 CNN 结构 ， 它 被 用 于 MNIST 
数据 集 手写 数字 识别 。 


MNIST 是 美国 国家 标准 与 技术 研究 所 发 布 的 手写 数字 图 像 数 据 集 。 该 数据 集 分 成 10 个 类 别 : 
数字 0~9。 训 练 集 包 含 60 000 个 带 类 别 标签 的 样本 ， 测 试 集 包含 10 000 个 不 带 标签 的 样本 。 样 
本 是 28 x 28 单 通 道 灰 度 图 像 ,像素 值 位 于 [0, 255] 区 间 ,代表 该 像素 的 灰 度 。 图 10-1 展示 了 MNIST 
数据 集 的 例子 。 


LeNet-5 的 输入 不 是 原始 MNIST 图 像 。 首 先 将 图 像 四 周 以 零 值 扩充 两 个 像素 的 宽度 , 使 图 像 
尺寸 变 成 32 x 32， 这 是 为 了 使 手写 数字 的 笔画 都 能 位 于 某 个 卷 积 区 域 的 中 心 。 之 后 再 将 元 素 值 
除 以 255, 归 一 化 到 [0, 1] 。 因 为 图 像 是 单 通道 的 , 所 以 LeNet-5 的 输入 数据 的 形状 是 32 x 32 x 1， 
值 为 [0, 1] 内 的 实数 。 
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图 10-1 MNIST 手写 数字 图 像样 例 


LeNet-5 的 结构 如 表 10-1 所 示 。 表 中 包含 各 层 的 名 称 /代号 、 类 型 .尺寸 ( 卷 积 核 或 池 化 窗口 )、 
步 幅 、 填 充 方式 、 输 出 尺寸 、 输 出 通道 数 以 及 激活 函数 。 我 们 不 把 激活 函数 当 作 单独 的 一 层 ， 而 
是 标注 在 每 一 层 中 ， 即 对 该 层 的 输出 施加 某 类 型 的 激活 函数 。 


= 


表 10-1 LeNet-5 的 结构 

层 类 型 尺 十 步 幅 填充 方式 输出 尺寸 | 输出 通道 数 | “激活 函数 
输入 层 = = 二 = 32 x32 1 一 

Cl 卷 积 5x5 1 舍弃 28x28 6 Tanh 

S2 平均 值 池 化 2x2 2 补 零 14x 14 6 Tanh 

C3 卷 积 5x5 1 舍弃 10x10 16 Tanh 

S4 平均 值 池 化 2x2 2 补 零 5x5 16 Tanh 

C5 卷 积 5x5 1 舍弃 1x1 120 Tanh 

F6 全 连接 一 一 一 84 Tanh 
输出 层 全 连接 一 一 一 10 一 grbf 


LeNet-5 的 结构 如 图 10-2 所 示 。 


C3: 特征 图 16@10x10 
S4: 特 征 图 16@5x5 


输入 


C1: 特 征 图 
32x32 6@28x28 


S2: 特征 图 
6@14x14 


| 
高 斯 核 
卷 积 


图 10-2 LeNet-5 示意 图 中 
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LeNet-5 的 卷 积 层 采 用 “舍弃 ”填充 ， 因 为 其 卷 积 核 尺 寸 都 是 5x5， 所 以 位 于 上 下 左右 边 毕 
的 两 个 像素 被 舍弃 ， 输 出 图 像 的 宽 和 高 比 输入 图 像 小 4 个 像素 。C5 卷 积 层 的 输入 尺寸 是 5 x5， 
它 的 输出 尺寸 是 1x1 (一 个 值 )。C5 有 120 个 卷 积 核 ， 所 以 它 的 输出 实际 是 一 个 120 维 向 量 。 


LeNet-5 的 平均 值 池 化 层 采 用 补 零 填充 ， 步 幅 为 2， 它们 将 图 像 尺寸 压缩 一 半 。LeNet-5 的 平 
均值 池 化 层 与 通常 的 平均 值 池 化 层 不 同 : 它 给 平均 值 乘 上 一 个 系数 ,再 加 一 个 偏 置 。 每 个 输入 通 
道 都 有 独立 的 系数 和 偏 置 , 并 参与 训练 。 池 化 层 S2 有 6 个 输出 通道 , 卷 积 层 C3 有 16 个 卷 积 核 ， 
但 C3 的 每 个 卷 积 核 并 不 与 S2 的 所 有 输出 通道 连接 ，C3 与 S2 之 间 的 连接 关系 如 表 10-2 所 示 。 


表 10-2 LeNet-5 的 卷 积 层 C3 与 池 化 层 S2 的 连接 关系 


S2/C3 0 1 2 3 4 5 6 7 8 9 |10111112113114115 
0 V V V VIVIVvIY V | V 
1 V V V V V VIvVvIVIyY V 
2 V V V V V V V VIVvIy 
3 V V V V V Vly V V | V 
4 V V V V V IvVIy V | V V 
5 V V V V IVIvIy VIVvIy 


从 表 10-2 可 见 ，C3 前 6 个 卷 积 核 各 连接 S2 的 3 个 输出 通道 ,它们 的 形状 是 5x5x3。 后 面 
9 个 卷 积 核 各 连接 S2 的 4 个 输出 通道 , 它们 的 形状 是 5 x5 x4。 最 后 一 个 卷 积 核 连接 S2 的 全 部 6 
个 输出 通道 ， 它 的 形状 是 5x5 x6。 


LeNet-5 的 输出 层 有 10 个 神经 元 , F6 层 有 84 个 神经 元 ， 输出 层 与 F6 层 全 连接 ， 所 以 输出 层 每 
个 神经 元 的 权 值 向 量 是 84 维 向 量 。 图 10-3 展示 了 部 分 ASCI 可 见 字符 的 12 x 7 原型 (prototype )。 


口 加 中 而 击 加 图 口 四 四 现 因 加 日 日 员 
了 BBSBSSBUB59HDNRBGSB 
ah6saapsRonaRDnmRnEG 
UT 
Na6gdgaeangnagdnunnia 
Bgdeauy uy 0 
图 10-3 ”部 分 ASCII 可 见 字 符 的 12 x7 原型 


原型 的 元 素 取 值 -1 或 +1， 表 示 背 景 或 前 景 。LeNet-5 用 数字 0~9 的 原型 作为 输出 层 神经 元 权 
值 向 量 的 初始 值 。 输 出 层 神 经 元 的 权 值 向 量 既 然 是 数字 原型 ， 就 可 以 用 F6 层 的 输出 向 量 与 这 些 
原型 向 量 比 较 。 记 F6 层 的 输出 向 量 为 x,( 从 0 开始 ) 第 j 个 输出 层 神经 元 的 权 值 向 量 是 wi ， 该 神 
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经 元 执行 的 计算 是 : 


grbf(x, wi) =||x— wi = F(x — wi) , j=0,.,9 (10.1) 


式 (10.1 ) 称 为 高 斯 径 向 基 函 数 。 高 斯 径 问 基 是 径 向 基 册 数 (radial basis function ) 的 一 种 。 
径 向 基 枯 数 的 输出 只 取决 于 输入 向 量 与 原型 之 间 的 距离 。 可 以 取 不 同 的 距离 定义 ,高 斯 径 向 基 取 
欧 氏 距离 的 平方 , 即 输 入 向 量 与 原型 各 分 量 之 差 的 平方 和 。 输 出 层 10 个 神经 元 分 别 代表 数字 0~9， 
取 输 出 值 最 小 的 神经 元 所 代表 的 数字 为 预测 结果 ， 因 为 这 个 神经 元 的 权 值 向 量 ( 原型 ) 与 样本 的 
F6 输出 最 接近 。 最 小 化 式 〈 10.1 ) 等 价 于 最 大 化 : 


;| 也 
[al 


2 ,j=0,.,9 (10.2 ) 


1 
(2Ta2)m/2 有 


使 式 (10.1 ) 最 小 的 wi 使 似 然 概率 p(x|w 站 最 大 ， 所 以 它 是 最 大 似 然 解 。 输 出 层 权 值 向 量 可 
以 参与 训练 ， 也 可 以 不 参与 训练 。 仿 训练 集 为 {Xi, yi 以 1， 每 个 Xi 是 手写 数字 图 像 , 是 32 x 32 x1 
的 阵列 。 每 个 y: 取 值 0~9， 是 样本 的 真实 类 别 。LeNet-5 有 10 个 输出 : 


p(x|Iw’) = 


zi(Xi, W) = grbf(xi, wi), j= 0,.…,9 (10.3 ) 
其 中 , x! 是 样本 X: 的 F6 输 出 , W 是 网 络 的 全 体 参 数 ，zi(X',W) 衡 量 xi 与 数字 j 的 原型 w/ 之 间 的 距 


离 。 样 本 的 真实 类 别 是 y{， 所 以 训练 过 程 应 该 最 小 化 所 有 样本 的 zY (Xi,W) (i = 1,…,M )， 于 是 
可 以 将 损失 函数 定义 为 : 


Ee 


loss(W) = FE zy (Xi,W) = 三 2 grbf (xi, wy ) (10.4 ) 


但 如 果 输 出 层 神 经 元 的 权 值 向 量 也 参与 训练 , 则 这 个 损失 函数 就 存在 问题 。 因为 训练 过 程 可 
以 把 10 个 权 值 向 量 训练 成 同一 个 向 量 , 并 使 F6 层 对 所 有 训练 样本 都 输出 该 向 量 , 这 样 的 话 训练 
集 上 的 损失 可 以 降 为 零 ， 但 很 显然 这 不 是 我 们 想 要 的 结果 。 在 拉 近 样本 的 F6 输出 与 正确 原型 
之 间 的 距离 的 同时 ,应 该 加 大 它 与 错误 原型 之 间 的 距离 。 出 于 这 个 考虑 ,给 每 个 样本 的 损失 添加 
一 项 : 


loss(W) = 二 人; (zw) +log (er + >7-o 34) (10.5) 


新 添 的 惩罚 项 驱使 训练 过 程 增 大 F6 输出 与 所 有 原型 之 间 的 距离 , 日 有 的 惩罚 项 拉 近 F6 输出 
与 正确 原型 之 间 的 距离 。 常 数 项 e 屎 防止 式 〈10.5 ) 无 限 降低 。 有 了 损失 函数 ， 运 用 计算 图 反 向 
传播 加 梯度 下 降 就 可 以 训练 LeNet-5 了 。 


LeNet-5 是 最 早 的 CNN 之 一 , 它 与 现今 的 惯常 做 法 有 一 些 不 同 : S2 与 C3 之 间 的 局 部 连接 已 
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无 必要 ,Tanh 激活 函数 也 已 被 ReLU 取代 ,现今 ,人 们 会 将 F6 层 连接 一 个 10 神 0 
之 后 再 施加 SoftMax 函数 , 以 交叉 录 作 为 损失 值 。LeNetr5 有 7 层 , 以 今天 的 标准 看 来 算 不 上 “ 
度 ”， 更 主要 的 是 ， 它 没有 使 用 深度 学 习 特 有 的 训练 和 正则 化 技术 ， 所 以 它 还 不 算是 深度 7 


10.2 AlexNet 


AlexNet 是 Alex Krizhevsky 、Jllya Sutskever 和 Geoffrey E. Hinton 于 2012 年 的 论文 ImageNet 
Classification with Deep Convolutional Neural Networkst"! 中 提出 的 CNN 结构 。AlexNet 得 名 自 第 一 
作者 Alex Krizhevsky。 论 文 标题 出 现 了 “Deep” 字 样 ，AlexNet 是 一 个 真正 的 深度 CNN。 


AlexNet 被 用 于 ImageNet 图 像 数 据 集 。ImageNet 数据 集 包 含 超过 1500 万 张 带 类 别 标签 的 高 
分 辩 率 彩色 图 像 ， 分 属 大 约 22 000 个 类 别 ， 采 集 自 网 络 并 经 过 人 工 标注 。 每 年 的 ILSVRC 竞赛 
取 ImageNet 数据 集 的 1000 个 类 别 ， 共 包含 120 万 张 训练 集 图 像 、5 万 张 验证 集 图 像 和 15 万 张 测试 
集 图 像 。 论 文中 采用 的 训练 集 和 测试 集 来 自 ILSVRC-2010。 作 者 以 该 成 果 参 加 了 ILSVRC-2012 竞 
赛 ， 并 以 较 大 优势 夺 得 冠军 。 图 10-4 展示 了 一 些 ImageNet 图 像 。 


图 10-4 ImageNet 数据 集 图 像样 例 
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ImageNet 图 像 是 大 小 不 一 的 RGB 三 通道 彩色 图 像 。 作 者 首先 将 每 幅 图 像 较 短 的 一 边 缩放 成 
224 像素 ,再 从 图 像 中 心 剪裁 出 224 x 224 的 区 域 , 最 后 , 将 图 像 每 一 个 像素 减 去 其 均值 ,以 去 中 
心 化 。AlexNet 的 输入 是 224 x 224 x 3 的 阵列 , 每 个 元 素 是 去 中 心 化 的 像素 值 。 AlexNet 的 结构 如 
表 10-3 所 示 。 


表 10-3 AlexNet 的 结构 


”“ 层 | 类 型 | 尺 寸 | 填充 方式 | 步 幅 | 输出 尺寸 | 输出 通道 数 | 激活 函数 

输入 层 3 和 到 = 一 3 (RGB ) 一 
Cl 卷 积 11x11 补 零 4 55 x 55 96 ReLU 
S2 最 大 值 池 化 3x3 二 2 27x 27 96 二 
C3 卷 积 5x5 补 零 1 27x 27 256 ReLU 
S4 最 大 值 池 化 3x3 一 2 13 x 13 256 一 
C5 卷 积 3x3 补 零 1 13 x 13 384 ReLU 
C6 卷 积 3x3 补 零 1 13 x 13 384 ReLU 
C7 卷 积 3x3 补 零 1 13x13 256 ReLU 
S8 最 大 值 池 化 3x3 一 2 6x6 256 2 
F9 全 连接 Ss 3 一 4096 ReLU 
F10 全 连接 二 二 一 4096 ReLU 

输出 层 全 连接 一 一 1000 SoftMax 


卷 积 层 和 池 化 层 的 输出 尺寸 取决 于 输入 尺寸 、 填 充 方式 和 步 幅 ， 读 者 可 自行 验证 。 通 常 ， 池 
化 层 窗口 无 重生 地 覆盖 输入 图 像 ， 但 AlexNet 不 同 ，AlexNet 的 池 化 层 窗口 的 尺寸 是 3 x3， 步 幅 
是 2, 窗口 之 间 有 一 个 像素 的 重 琶 。AlexNet 的 卷 积 层 采用 ReLU 激活 函数 ， 它 是 较 早 应 用 ReLU 
的 神经 网 路 。 输 出 层 有 1000 个 神经 元 ， 对 它们 的 输出 施加 SoftMax 函数 ， 得 到 1000 个 类 别 的 
概率 。 


AlexNet 对 Cl 和 C3 卷 积 层 应 用 了 一 种 称 为 局 部 啊 应 标准 化 (local response normalization ， 
LRN ) 的 技术 。 假 设 卷 积 层 有 N 个 卷 积 核 , 令 aiy (i = 0,…,N 一 1) 是 N 个 卷 积 核 在 (x,y) 位 置 上 
的 和 输出， 计算: 


bi,= 和 (10.6 ) 
M4 (RECT 人 dj a 


j=max(0,i—-n/2)\ X,Yy 


以 Bi, (i = 0,…,N 一 1) 作为 N 个 特征 图 在 (x,y) 位 置 的 值 。bi, 引 入 第 i 个 卷 积 核 的 n 个 相 令 
卷 积 核 在 相同 位 置 的 输出 ,将 这 些 相 邻 输出 的 平方 和 放 在 分 母 上 ,若菜 个 卷 积 核 的 输出 较 大 , 它 
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就 会 抑制 相 邻 特征 图 的 值 。 这 个 机 制 受 到 生物 神经 元 侧 向 抑制 效应 的 启发 。k、a、B 和 n 是 LRN 
的 超 参 数 , 论文 中 的 取 值 为 k = 2、a = 10 4、8 = 0.75、n = 5。AlexNet 的 结构 如 图 10-5 所 示 。 


主语 


用 
2 


图 10-5 AlexNet 示意 图 叫 


图 中 只 画 了 输入 、 卷 积 层 和 全 连接 层 ,， 激活 函数 作为 卷 积 层 的 一 部 分 , 池 化 层 标注 在 相应 的 
卷 积 层 之 后 。 注 意 ， 图 中 将 每 个 卷 积 层 的 卷 积 核 分 成 两 组 ， 分 别 画 在 上 部 和 下 部 。C3 、C6 和 C7 
三 个 卷 积 层 并 不 连接 前 一 层 的 全 部 特征 图 , 而 只 连接 和 自己 同一 组 的 特征 图 。 作 者 将 两 组 卷 积 核 
分 放 在 两 块 GPU 上 ， 这 种 连接 方式 减少 了 GPU 之 间 的 数据 交换 ， 同 时 也 减少 了 参数 量 。 


Dropout 在 当时 还 是 一 种 新 技术 ， 训 练 时 ， 作 者 对 F9 和 F10 应 用 了 Dropout，Dropout 率 为 
0.5。 作 者 还 应 用 了 数据 增强 ， 预 处 理 时 将 图 像 缩放 并 裁剪 成 256 x 256 大 小 ， 从 中 随机 剪裁 出 
224 x 224 的 区 域 ， 并 随机 水 平 翻转 。 数 据 增强 使 训练 集 扩 大 了 2048 倍 ， 并 有 效 防 止 了 过 拟 合 。 
预测 时 从 256 x 256 图 像 的 四 角 和 中 央 剪 裁 出 5 个 224 x 224 图 像 , 并 对 它们 水 平 翻转 , 共 得 到 10 
幅 图 像 ， 取 AlexNet 对 10 幅 图 像 预测 概率 的 平均 值 作为 最 终 预测 概率 。 


作者 以 0 均值 、0.01 标准 差 的 正 态 分 布 初始 化 各 层 权 值 。C3 、C6 和 C7 的 偏 置 初始 化 为 1， 
其 余 层 的 偏 置 初始 化 为 0。 训 练 以 交叉 焙 为 损失 值 ， 一 个 Mini Batch 包含 128 个 样本 ,采用 冲 量 
梯度 下 降 算法 ， 冲 量 系数 0.9， 施 加 强度 为 0.0005 的 已 正则 化 。 作 者 采用 了 一 种 启发 式 的 学 习 率 
调整 策略 : 当 观 察 到 验证 集 错误 率 不 再 下 降 时 ,手动 将 学 习 率 设 为 当前 值 的 10。 初 始 学 习 率 是 
0.01， 训 练 结束 前 共 调 整 了 三 次 ， 训 练 进行 了 90 个 epoch。 


我 们 来 看 一 下 训练 完成 的 C1 层 的 96 个 卷 积 核 , 这 些 卷 积 核 都 是 11 x 11 x 3 的 阵列 , 经 过 归 
一 化 后 是 三 通道 彩色 图 像 。 图 10-6 将 它们 展示 出 来 , 上 半 部 48 个 卷 积 核 在 第 一 块 GPU 上 训练 ， 
下 半 部 48 个 卷 积 核 在 第 二 块 GPU 上 训练 。 可 看 出 两 组 卷 积 核 的 功能 有 所 差别 ， 上 半 部 多 数 卷 积 
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核 类似 Sobel 算 子 ， 方 向 各 异 ， 它 们 关注 图 像 中 的 边缘 ， 下 半 部 多 数 卷 积 核 三 个 通道 差异 明显 ， 
它们 关注 图 像 的 颜色 。 


图 10-6 AlexNet 的 C1 层 的 96 个 卷 积 核 中 


AlexNet 比 LeNet-5 更 深 更 大 , 它 有 超过 65 万 个 神经 元 , 6 千 万 个 参数 。 更 重要 的 是 , AlexNet 
应 用 了 当时 最 新 的 ReLU 激活 函数 、LRN、Dropout 以 及 数据 增强 等 技术 ， 它 已 经 跨 入 了 深度 学 
习 领 域 。 


10.3 VGGNet 


Karen Simonyan 和 Andrew Zisserman 于 2015 年 的 论文 Very Deep Convolutional Networks for 
Large-Scale Image Recognition[3] 中 提出 并 实验 了 一 组 CNN， 称 它们 为 YGGNet (来 自作 者 单位 
Visual Geometry Group ，Oxford University )。 


VGGNet 是 一 类 简单 的 CNN, 它们 包含 5 组 卷 积 层 , 组 间 搬 入 池 化 层 以 缩小 图 像 尺寸 。 网 络 
后 端 连接 三 个 全 连接 层 ， 神 经 元 数 分 别 为 : 4096、4096 和 1000。 最 后 施加 SoftMax 函数 ， 得 到 
1000 类 别 的 概率 。 卷 积 层 和 全 连接 层 的 激活 函数 都 是 ReLU。 卷 积 层 的 填充 方式 是 补 零 填 充 ， 步 
幅 为 1。 池 化 层 为 最 大 值 池 化 , 采用 补 零 填 充 , 步 幅 为 2。 每 经 过 一 个 池 化 层 图 像 尺寸 缩小 一 半 。 
每 组 卷 积 层 ( 除 最 后 一 组 ) 的 卷 积 核 数量 扩大 2 倍 , 即 增加 通道 数 。 根 据 组 内 卷 积 层 数量 的 不 同 ， 
作者 构造 了 由 浅 到 深 的 6 种 VGGNet， 如 表 10-4 所 示 。 
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表 10-4 6 种 VGGNet 的 结构 


网 络 ( 层 数 ) A (11) A-LRN (11) B (13) C (16) D (VGG16) E (VGG19) 
输入 输入 层 (224 x 224 x 3) 
卷 积 层 组 1 3 x 3,64 3 x 3,64 3 x 3,64 3 x 3,64 3 x 3,64 3 x 3,64 
LRN 3 x 3,64 3 x 3,64 3 x 3,64 3 x 3,64 
池 化 层 最 大 值 池 化 ，2x2， 步 幅 2 
卷 积 层 组 2 3 x 3,128 3 x 3,128 3 x 3,128 3 x 3,128 3 x 3,128 3 x 3,128 
3 x 3,128 3 x 3,128 3 x 3,128 3 x 3,128 
池 化 层 最 大 值 池 化 ，2x2， 步 幅 2 
卷 积 层 组 3 3 x 3,256 3 x3,256 3 x 3,256 3 x3,256 3 x3,256 3 x 3,256 
3 x3,256 3 x 3,256 3 x3,256 3 x3,256 3 x 3,256 3 x 3,256 
1 x 1256 3 x3,256 3 x 3,256 
3 x 3,256 
池 化 层 最 大 值 池 化 ，2x2， 步 幅 2 
卷 积 层 组 4 3 x3,512 3x3,512 3 x3,512 3 x3,512 3 x3,512 3 x3,512 
3x3,512 3x3,512 3x3,512 3x3,512 3x3,512 3 x3,512 
1x1,512 3x3,512 3 x3,512 
3 x3,512 
池 化 层 最 大 值 池 化 ，2x2， 步 幅 2 
卷 积 层 组 5 3x3,512 3 x3,512 3x3,512 3 x3,512 3 x3,512 3 x3,512 
3x3,512 3x3,512 3x3,512 3x3,512 3x3,512 3 x3,512 
1x1,512 3x3,512 3 x3,512 
3 x3,512 
池 化 层 最 大 值 池 化 ，2 x 2， 步 幅 2 
全 连接 层 1 | 4096 
全 连接 层 2 | 4096 
全 连接 层 3 | 1000 
SoftMax 1000 


表 中 层 数 只 计 卷 积 层 和 全 连接 层 ( 带 参 数 的 层 ),n x n,m 表示 卷 积 核 尺 寸 为 n x n, 数量 为 m。 
网 络 A-LRN 对 第 一 个 卷 积 层 的 输出 施加 局 部 响应 标准 化 (LRN ).VGG 的 卷 积 核 尺 寸 都 是 3 x 3， 
将 多 个 3 x3 的 卷 积 层 倒 加 , 则 最 后 一 层 的 神经 元 可 以 感知 前 面 层 上 更 大 的 区 域 ,如 图 10-7 所 示 。 


以 到 加 小 卷 积 核 代替 单个 大 卷 积 核 有 两 个 好 处 : 首先 , 层 之 间 的 非 线性 激活 函数 增强 了 网 络 
的 表达 能 力 ， 其 次 可 以 减少 参数 量 。 图 10-7 中 的 连接 方式 有 9x3 = 27 个 权 值 ， 而 7x7 的 卷 积 
核 有 49 个 权 值 。VGG16 的 结构 如 图 10-8 所 示 。 
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图 10-7 第 4 层 的 神经 元 可 以 感知 第 1 层 的 7x7 区域 


224x224x3 224x224x64 


7 了 7X7X512 


28x28 x 512 


14x14x512 1X1x4096 1x1x1000 


名 卷 积 层 +ReLU 
[I 最 大 值 池 化 

全 连接 层 +ReLU 
softmax 


图 10-8 VGG16 示 意图 


作者 首先 训练 最 浅 的 网 络 A， 随 机 初始 化 权 值 和 偏 置 ， 训 练 完成 后 ， 通 过 添加 卷 积 层 将 A 
改造 成 B, 原 有 的 层 沿用 之 前 训练 好 的 权 值 和 偏 置 ， 新 添加 的 层 的 权 值 随机 初始 化 , 偏 置 初始 化 
为 零 。 作 者 以 这 种 方式 依次 训练 网 络 C、D 和 E。 


6 种 VGGNet 除了 深度 逐渐 增加 ， 在 其 他 方面 都 相同 ， 且 在 同样 的 条 件 下 训练 和 测试 ， 实 验 
表明 , 更 大 的 深度 确实 对 提升 CNN 的 表现 有 作用 。 加 深 网 络 而 减 小 卷 积 核 尺 寸 是 CNN 发 展 的 一 
种 趋势 ， 这 一 定 程度 说 明 小 卷 积 核 、 大 深度 的 设计 是 有 意义 的 。 这 一 点 很 重要 ,我 们 将 在 附录 中 
尝试 解释 它 的 原因 。 
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10.4 GoogLeNet 


“We Need To Go Deeper.” 


Inception, 2010 


Christian Szegedy 等 人 在 论文 Going Deeper with Convolutionst 中 描述 了 GoogLeNet， 并 凭 之 
夺 得 ILSVRC-2014 冠军 。GoogLeNet 使 用 了 一 种 称 为 mception 的 模块 , 该 模块 得 名 于 2010 年 的 
影 Inception( 资 梦 空间 )。Inception 模块 的 结构 如 图 10-9 所 示 。 


特征 图 又 加 
1 x 1 卷 积 层 
1 1 1 
1 x 1 卷 积 层 1 x 1 卷 积 层 3 x 3 最 大 值 池 化 


之 前 的 层 


图 10-9 ”Inception 模块 

Inception 模块 将 输入 发 送 给 4 个 部 分 ， 这 4 个 部 分 从 左 至 右 依 次 如 下 : 
口 卷 积 核 为 1 x 1 的 卷 积 层 ; 

口 卷 积 核 为 1 x 1 卷 积 层 ， 后 连 卷 积 核 为 3 x 3 卷 积 层 ; 

口 卷 积 核 为 1 x 1 卷 积 层 ， 后 连 卷 积 核 为 5 x 5 卷 积 层 ; 

D 3 x 3 最 大 值 池 化 层 ， 后 连 卷 积 核 为 1 x 1 卷 积 层 。 


所 有 卷 积 层 和 池 化 层 都 采用 补 零 填 充 且 步 幅 为 1， 它们 都 不 改变 图 像 的 玉 寸 。 各 个 卷 积 层 的 
卷 积 核 数量 可 任意 设置 。 最 后 ，Inception 模块 将 4 个 部 分 输出 的 特征 图 有 在 一 起 作为 输出 。 可 以 
将 Inception 模块 视 为 一 个 大 卷 积 层 ， 这 个 大 卷 积 层 的 卷 积 核 尺 寸 不 止 一 种 。 通 常 的 卷 积 层 不 论 
有 多 少 卷 积 核 ， 它 们 的 尺寸 都 是 相同 的 ， 而 Inception 模块 相当 于 允许 一 个 卷 积 层 内 包含 不 同 尺 
寸 的 卷 积 核 ， 以 提取 不 同 尺度 的 特征 。 
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GoogLeNet 将 卷 积 层 、 池 化 层 等 组 件 与 Inception 模块 连接 ， 组 成 深度 CNN 结构 ， 它 的 结构 


如 表 10-5 所 示 。 
表 10-5 GoogLeNet 的 结构 
类 型 (名称 ) ”| 尺寸/ 步 幅 输出 尺寸 #1X1 | #3X3 | #3x3 | 药 x5 | #5x5 | #HX1 
reduce reduce pooling 

输入 224x224x3 五 = a 
卷 积 7x7/2 112x 112 x 64 一 一 一 
最 大 值 池 化 3x3/2 56x56x64 一 一 一 一 一 一 
卷 积 1x1/1 56x56x64 

卷 积 3 x 3/1 56x56x192 一 一 一 
最 大 值 池 化 3x3/2 28 x 28 x 192 一 一 一 二 一 
Inception 4 28 x 28 x 256 64 96 128 16 32 32 
Inception 一 28 x 28 x 480 128 128 192 32 96 64 
最 大 值 池 化 3x3/2 14 x 14x480 一 一 一 一 一 一 
Inception 一 14x14x512 192 96 208 16 48 64 
Inception i 14x14x512 160 112 224 24 64 64 
Inception 过 14x14x512 128 128 256 24 64 64 
Inception = 14x14x528 112 144 288 32 64 64 
Inception Er 14x 14x 832 256 160 320 32 128 128 
最 大 值 池 化 3x3/2 7x7x832 -= es 一 
Inception a 7x7x832 256 160 320 32 128 128 
Inception 7 x7x1024 384 192 384 48 128 128 
平均 值 池 化 7x7/1 1x1x1024 一 = 一 
全 连接 一 1x1x1000 一 一 一 一 一 = 
SoftMax 一 1xlx1000 三: 


GoogLeNet 的 卷 积 层 和 池 化 层 采 用 补 零 填充 ， 卷 积 层 的 激活 函数 是 ReLU。 表 10-5 第 一 列 


层 的 类 型 , 第 二 列 是 卷 积 层 或 池 化 层 的 


尺寸 和 步 幅 ， 


Inception 模块 各 部 分 的 卷 积 核 数量 ， 其 中 各 列 对 应 的 部 分 如 下 : 


口 机 x1，1x1 卷 积 层 ; 
口 #3 x 3 reduce，3 x3 卷 积 层 之 前 的 1 x 1 卷 积 层 ; 
口 #3 x3，3 x3 卷 积 层 ; 
口 扰 x5 reduce，5 x5 卷 积 层 之 前 的 1x1 卷 积 层 ; 


口 捷 x5，5 x5 卷 积 层 ; 


第 三 列 是 输出 尺寸 和 通道 数 ， 最 后 6 列 描 i 


人 碟 


术 
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口 #1 x 1 pooling， 池 化 层 之 后 的 1 x 1 卷 积 层 。 


将 这 6 列 的 第 一 、 三 、 五 、 六 列 相 加 ， 就 是 该 Inception 模块 的 输出 特征 图 数 。GoogLeNet 对 第 
一 个 最 大 值 池 化 层 和 第 三 个 卷 积 层 施加 局 部 响应 标准 化 ,对 全 连接 层 施加 Dropout, Dropout 率 0.4。 


训练 时 ,在 第 三 和 第 六 个 mception 模块 后 连接 了 两 个 小 规模 的 辅助 CNN ,它们 包括 一 个 5 x5、 
步 幅 3 的 平均 值 池 化 层 ， 后 接 1 x 1、 步 幅 1 的 卷 积 层 ， 再 连 两 个 全 连接 层 ， 最 后 施加 SoftMax 
函数 。 卷 积 层 和 池 化 层 采 用 补 零 填充 , 卷 积 层 和 第 一 个 全 连接 层 的 激活 函数 是 ReLU。 将 辅助 CNN 
的 交叉 炉 乘 以 系数 0.3 后 加 到 总 损失 上 。 辅 助 CNN 的 目的 是 缓解 梯度 消失 ， 使 前 面 的 层 容 易 得 
到 训练 。GoogLeNet 的 结构 如 图 10-10 所 示 。 


图 10-10 ”GoogLeNet 示 意图 中 
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10.5 ResNet 


Kaiming He, Xiangyu Zhang , Shaoqing Ren 和 Jian Sun 在 论文 Deep Residual Learning for Image 
Recognitiont 1 中 提出 了 残 差 学 习 ， 并 设计 了 几 种 统称 为 ResNet 的 CNN。 利 用 跳跃 连接 ， 将 若干 
层 的 输入 与 它们 的 输出 逐 元 素 相 加 作为 最 终 的 输出 ， 这 就 是 一 个 残 差 单元 (residual unit，RU )。 
作者 使 用 的 两 种 残 差 单元 如 图 10-11 所 示 。 


输入 特征 图 : 64 输入 特征 图 : 256 
eo 
YY 9 
3 x 3 卷 积 层 ， 卷 积 核 : 64 1 x 1 卷 积 层 ， 卷 积 核 : 64 
跳 
R 和 ReLU 跳 
y 接 y 紧 
3 x 3 卷 积 层 ， 卷 积 核 ，64 3 x 3 卷 积 层 ， 卷 积 核 ，64 


CC 二 


1 x 1 卷 积 层 ， 卷 积 核 : 256 


图 10-11 残 差 单元 


图 10-11 左 侧 的 残 差 单 元 包含 两 个 卷 积 层 ， 它 们 的 卷 积 核 尺寸 是 3 x 3， 卷 积 核 数量 是 64， 
激活 函数 为 ReLU。 它 们 采用 补 零 填 充 且 步 幅 为 1， 不 改变 图 像 尺寸 。 它 们 的 卷 积 核 数量 与 输入 
通道 数 相同 ， 都 是 64。 这 两 个 卷 积 层 的 输出 与 输入 形状 相同 ， 可 以 逐 元 素 相 加 。 右 侧 的 残 差 单 
元 包含 三 个 卷 积 层 ，1 x 1 卷 积 层 压缩 通道 数 ， 之 后 是 一 个 3 x 3 卷 积 层 ， 最 后 的 1 x 1 卷 积 层 有 
256 个 卷 积 核 ， 与 输入 通道 数 相同 。34 层 的 ResNet-34 如 图 10-12 所 示 。 


34- 层 残 差 网 络 
图 像 


conv; 卷 积 
pool: 池 化 
化: 全 连接 


7x7 conv, 64, /2 


图 10-12 ”ResNet-34 结构 示意 图 中 
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图 10-12 ( 续 ) 


ResNet-34 的 输入 图 像 连 接 到 一 个 包含 64 个 7x7 卷 积 核 的 卷 积 层 , 步 幅 为 2, 后 连接 步 幅 
为 2 的 最 大 值 池 化 层 ,将 图 像 尺 寸 压缩 一 半 ， 之 后 是 16 个 残 差 单元 。 虚 线 标识 的 跳跃 连接 包含 
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1 x1 卷 积 层 以 调整 数据 形状 。 残 差 单元 逐渐 减 小 图 像 尺寸 , 增加 通道 数 , 最 后 经 过 步 幅 为 1 的 平 
均值 池 化 层 后 连接 到 1000 个 神经 元 的 全 连接 层 , 施加 SoftMax 得 到 1000 类 的 概率 ( 图 中 没有 显 
示 )。 表 10-6 展示 5 种 不 同 深度 的 ResNet。 


表 10-6 5 种 不 同 深度 的 ResNet 


模 块 | 输出 尺寸 | 18 层 ResNet | 34 层 ResNet 50 层 ResNet 101 层 ResNet 152 层 ResNet 
卷 积 层 112 x 112 7x7 卷 积 核 ，64 通 道 ， 步 幅 2 
最 大 值 池 化 | 56 x 56 3x3, 步 幅 2 
残 差 单元 56x56 [3x3,64] [3x 3,64] T1x1,641] T1x1,641] FT 1x1,64 1 
2 
3x3.64|~ 3x3,64|” | 3x 3,64 |x3 | 3x 3,64 |x3 | 3x3,64 |x3 
[1x1,256| [1x1,256| [1x1,256| 
残 差 单元 28 x 28 [3 x 3,128] [3x 3,128] T1x1,1281 [1x1,1281] FT1x1,1281] 
2 x4 
[3x3,128|™ [3x3,128 | [3x 3128 |x4 [3x3,128 |x4 (3x3,128 |x8 
[1x1,512 | [1x1,512 | |1x1,512 | 
残 差 单元 14x14 | fF3x3,256] [3x 3,256] [1x1,2561] [1x1,2561] [1x1,2561] 
2 6 
[3x3,256|™ [3x3,256|~ | 3x3,256 |x6 (3x 3,256 |x 23 (3x 3,256 |x36 
[1x1,1024 | [1x1,1024 | [1x1,1024 | 
残 差 单元 7x7 [3x 3,512] [3 x 3,5121 [1x1,512 1 T1x1,512 ] FT1x1,512 1] 
2 3 
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本 章 按时 间 顺 序 依次 介绍 了 5 种 CNN, 这 些 CNN 在 ILSVRC 竞赛 中 的 表现 越 来 越 好 。 竞赛 


是 一 种 选择 有 


E 力 ， 在 这 种 压力 下 ，CNN 不 断 变 异 、 适 者 生存 。 我 们 能 


出 一 个 大 致 趋势 : CNN 


的 深度 加 深 而 卷 积 核 变 小 。 这 表明 深度 确实 是 一 个 至 关 重 要 的 因素 ， 深 度 给 CNN 带 来 的 能 力 提 


升 , 不 是 仅仅 用 高 自由 度 加 大 样本 量 就 能 解释 的 , 这 也 是 脱胎 于 传统 机 器 学 习 的 深度 学 习 能 够 自 


成 一 门 子 学 科 的 原因 。 


不 过 目前 说 深度 学 习 是 一 门 学 科 还 有 些 站 不 住 脚 , 因为 我 们 还 没有 可 以 解释 深度 本 质 的 理论 


框架 ， 


是 盲目 尝试 。 无 论 是 四 元 素 理论 ， 还 是 来 - 硫 弄 
对 理论 的 妃 求 。 出 于 这 个 动机 ， 本 书 附录 将 从 元 胞 自动 机 和 动力 学 角度 尝试 分 析 一 下 “深度 ”的 


意义 ， 抛砖引玉， 希望 对 读者 有 所 启发 。 


这 也 是 深度 学 习 被 诉 病 为 炼金 术 的 原因 。 但 即便 是 炼金 术 ， 也 是 型 


LE 论 指导 下 的 实践 ， 而 不 


E 论 ， 哪 怕 后 来 被 证 明 是 错误 的 ， 人 们 也 从 没 放弃 


TensorFlow 实例 


本 章 从 一 个 实际 问题 入 手 ， 介 绍 如 何 使 用 TensorFlow 框架 构建 和 训练 模型 。 本 章 并 非 
TensorFlow 的 使 用 指南 ， 也 不 是 模型 调 优 的 实践 指导 ， 我 们 由 在 以 TensorFlow 为 工具 ， 将 本 书 
介绍 的 原理 和 概念 具象 化 ， 加 深 读 者 的 理解 。 


MNIST 图 像 数 据 集 包含 阿拉 伯 数 字 0~9 的 手写 图 像 ， 样 本 是 28 x 28 的 单 通道 灰 度 图 像 ， 像 
素 取 值 [0,H] 区 间 内 的 实数 , 表示 灰 度 。 若 将 样本 像素 阵列 的 行 连接 起 来 ,可 形成 一 个 784 维特 征 
向 量 ， 用 xz7ss 表 示 。 样 本 的 类 别 是 0, 1, 2, … 9 十 个 数字 。 用 向 量 y 表 示 类 别 的 One-Hot 编码 。 例 
如 , 若 类 别 是 3, 则 向 量 y 是 (0, 0, 0, 1, 0,0,0,0,0,0)7, y 的 第 4 分 量 (以 0 开始 , 索引 为 3 的 分 量 ) 
为 1， 其 余 分 量 为 0。 


本 章 包括 的 模型 有 多 分 类 逻辑 回归 、 多 层 全 连接 神经 网 络 、LeNet-5、AlexNet 和 VGG16。 
我 们 用 Python 代码 展示 这 些 模型 的 构建 、 训 练 和 评估 。 正 文 包 括 核心 代码 段落 以 及 讲解 ， 完 整 
的 代码 见 代码 库 : gitee.com/neural_network/neural_network_code。 
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第 1 章 介绍 的 逻辑 回归 模型 解决 的 是 二 分 类 问题 ， 为 解决 多 个 类 别 的 分 类 问题 ,我 们 可 以 将 
多 个 二 分 类 逻辑 回归 组 合 起 来 ， 形 成 复合 模型 。 最 简单 的 一 种 组 合 办 法 是 OvO ( one vs others ): 
如 果 问 题 有 K 个 类 别 ， 则 训练 个 二 分 类 逻辑 回归 模型 ， 其 中 第 k 个 模型 区 分 第 k 类 与 其 他 类 ， 预 
测 时 将 样本 提交 给 这 K 个 模型 ， 取 输出 概率 最 大 的 模型 所 识别 的 类 别 作 为 预测 类 别 。 


OvO 虽然 简单 ,但 却 存在 一 些 问题 。 首先, 各 个 模型 也 许 能 很 好 地 区 分 某 一 类 与 其 他 类 , 但 
它们 的 输出 概率 之 间 不 具 可 比 性 。 其 次 ,如果 每 个 类 别 的 样本 数量 相当 ,那么 每 一 个 模型 都 将 面 
对 正 负 样本 不 均衡 的 问题 。 最 后 ， 当 样本 数 和 类 别 数 很 大 时 ， 训 练 多 个 模型 的 计算 量 也 是 不 小 的 
负担 。 
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本 节 采 用 另 一 种 方式 一 一 多 分 类 逮 辑 回归 ( multinomial logistic regression ，MLR )。 我 们 首先 
回忆 二 分 类 逻辑 回归 ， 它 假设 正 负 类 的 对 数 概率 比 是 关于 输入 向 量 的 仿 射 函 数 : 


loge = wix+b (11.1) 


MLR 遵循 同样 的 思路 ， 它 认为 K 个 类 别 的 概率 的 对 数 是 输入 向 量 x 的 仿 射 函数 : 


logpx = whx+bxr—logZ, k=1,2,.…,K (11.2 ) 


其 中 ,一 logZ 是 归 一 化 因子 。K 个 权 值 向 量 wi 和 偏 置 bx 可取 任意 值 ,但 必须 保证 pk(k = 1,2,…,K ) 
是 合法 的 概率 分 布 , 即 ti px = 1, 这 就 需要 归 一 化 因子 。 至 于 Z 的 值 是 什么 , 为 什么 采用 -1log” 的 
形式 ， 暂 时 按 下 不 表 。 我 们 先 看 一 看 任意 两 个 类 别 的 对 数 概率 比 : 


log = logpi ~ logpj = (wi 一 1) x + (bi—b) (11.3) 


可 以 看 到 ， 和 二 分 类 逻辑 回归 一 样 ， 两 个 类 别 的 对 数 概率 比 是 关于 输入 向 量 x 的 仿 射 函数 ， 
其 法 向 量 是 wi - wj, 截 距 是 bi 一方 ,所 以 MLR 模型 对 任意 两 个 类 别 的 分 界面 是 超 平面 ,如 图 11-1 
所 示 。 


1-2 类 分 界线 
---，1-3 类 分 界线 

” 2-3 类 分 界线 
第 1 类 样本 
第 2 类 样本 
第 3 类 样本 


图 11-1 MLR 的 分 界线 
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现在 我 们 回 过 头 来 考察 一 下 Z 的 取 值 ， 将 式 〈11.2 ) 变形 ， 可 得 到 : 
1. ewkxtbx, k=1,2,.,K (11.4) 
由 于 必须 满足 K-11 px = 1， 所 以 必然 有 : 
Z = YK ewhxtbk (11.5) 


将 式 (11.5 ) 代 回 式 (11.4 )， 得 到 : 


wlx+b 
MC Ry (11.6) 


pr = T ) 
pS ewi x+bi 


这 是 对 K 个 仿 射 函数 值 wTIx 十 bx 施加 SoftMax 函数 。 如 此 看 来 ，MLR 其 实 是 对 输出 施加 
SoftMax 函数 的 单 层 神经 网 络 ， 如 图 11-2 所 示 。 


>| > D1 
> cm > 
v p2 
2 
四 
Pd 
3 > Dk 


图 11-2 MLR 是 单 层 神 经 网 络 


知 输 入 向 量 为 mn 维 ， 以 有 个 ?维权 值 向 量 wx 为 行 ， 构 造 K x n 的 权 值 算 阵 WW， 以 K 个 偏 置 为 分 
量 组 成 偏 置 向 量 bp， 则 MLR 的 计算 可 表达 为 : 


p(X) = SoftMax(Wx + b) (11.7 ) 


向 量 p(x) 的 各 个 分 量 是 MLR 对 样本 向 量 x 计算 的 各 类 别 概率 ， 取 最 大 的 概率 对 应 的 类 别 为 


11.1 多 分 类 逻辑 回归 261 


MLR 对 样本 的 预测 类 别 。 相 比 于 OVO，MLP 的 输出 是 合法 的 多 分 类 概率 分 布 。 训 练 MLR 时 采 
用 交叉 炉 作为 损失 隐 数 ， 计 算 样本 的 类 别 One-Hot 编码 与 p(x) 之 间 的 交叉 人 : 


Loss(W, blx, y) = — BE1 yi log p(X); (11.8) 
我 们 对 权 值 〈 而 不 对 偏 置 ) 施加 £2 正则 化 ， 带 £2 正则 项 的 损失 函数 是 : 
(11.9) 


Loss(W, blx,y) = — Pt-1 yi logp (2)i + 4 YY we 


现在 把 损失 函数 加 入 计算 图 ， 得 到 从 输入 向 量 到 损失 值 的 整个 计算 图 ， 如 图 11-3 所 示 。 


xeJADJoS 


图 11-3 带 损失 值 的 MLR 计算 图 


我 们 现在 进入 编码 环节 ， 首 先 ， 我 们 展示 如 何 使 用 TensorFlow 构造 MLR (不 带 损失 值 ) 的 
计算 图 ， 代 码 如 下 所 示 : 


# 构造 MLR 的 计算 图 
import tensorflow as tf 


X = tf.placeholder(tf.float32, [None, 784]) 

y = tf.placeholder(tf.float32, [None, 10]) 

W = tf.Variable(tf.truncated normal([784, 10], stddev=0.01)) 
b = tf.Variable(tf.zeros([10])) 

p = tf.nn.softmax(tf.matmul(X, W) + b) 
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TensorFlow 中 的 张 量 (tensor ) 可 以 是 标量 、 向 量 、 和 矩阵 以 及 更 高 维度 的 阵列 。 张 量 是 
TensorFlow 计算 图 的 节点 。 计 算 图 的 前 向 传播 过 程 好 似 Tensor 向 前 流动 ， 这 就 是 TensorFlow 的 
含义 。MLR 的 计算 图 有 5 个 张 量 : X、y、W、b 和 p。 


X 是 占 位 符 (placeholder ), 训练 或 预测 时 将 样本 向 量 赋 值 给 Xx。X 有 2 个 维度 , 第 二 维度 是 样 
本 向 量 的 维 数 一 一 784， 第 一 维度 是 None， 表 示 未 定 ， 人 允许 将 不 定数 量 的 样本 赋 给 它 。 训 练 或 预 
测 时 ， 可 以 将 一 批 多 个 样本 提交 给 计算 图 。 占 位 符 y 的 第 一 维度 也 未 定 ， 第 二 维度 是 10， 是 类 别 
One-Hot 编码 向 量 的 维 数 。 训练 时 将 一 批 样本 的 类 别 One-Hot 编码 向 量 赋 给 y, 用 于 计算 交叉 灶 。 


变量 W 是 784 x 10 的 权 值 矩 阵 。W 的 元 素 用 tf.truncated_normal 水 数 初 始 化 ， 它 以 0 均值 、 
0.01 标准 差 的 正 态 分 布 初始 化 矩阵 的 每 个 元 素 ， 若 随机 值 的 绝对 值 超过 两 倍 标准 差 ， 则 被 截断 。 
变量 p 是 10 维 偏 置 向 量 ， 以 0 值 初始 化 。 


用 矩阵 乘法 tf.matmul 计算 xW, 这 是 ?x784 的 矩阵 乘 以 784 x 10 的 矩阵 ,得 到 ? x 10 的 矩阵 。 
加 上 偏 置 向 量 b 后 ， 得 到 仿 射 函数 值 向 量 。 注 意 + 运 算 符 经 过 重 载 ， 执 行 的 是 张 量 之 间 的 加 法 ， 
而 且 自 动 广播 (broadcast ), 给 XW 的 每 一 行 加 上 10 维 偏 置 向 量 。 最 后 , 对 XW+b 施加 tf.nn.softmax 
得 到 张 量 p。p 是 ?x 10 的 矩阵， 包含 模型 对 一 批 输入 样本 的 预测 概率 。 


注意 ， 上 述 代码 段 是 在 构造 计算 图 ， 并 不 是 真正 执行 计算 : 可 以 在 一 个 会 话 中 对 计算 图 进行 
计算 ， 即 求 某 个 张 量 的 值 ， 前 提 是 被 求 值 的 张 量 的 上 游 张 量 都 已 经 有 值 一 一 占 位 符 已 被 赋值 ， 变 
量 已 被 初始 化 。 


以 下 代码 计算 MLR 对 MNIST 测试 集 样本 的 预测 概率 : 


# 前 向 计算 MLR 
from tensorflow.examples.tutorials.mnist import input data 


mnist = input data.read data sets("mnist dataset/", one hot = True) 
with tf.Session() as sess: 


sess.run(tf.global variables initializer()) 
prob = sess.run(p, feed dict={X: mnist.train.images}) 


首先 创建 一 个 会 话 并 初始 化 变量 ， 接 着 求 张 量 p 的 值 ， 这 时 需要 将 MNIST 测试 集 样本 赋 给 
占 位 符 xX。 若 测 试 集 包含 a 个 样本 ， 则 赋 给 X 的 是 x 784 矩阵 。 


这 时 得 到 的 概率 是 无 用 的 ， 因 为 模型 的 权 值 和 偏 置 是 随机 的 。 若 要 训练 MLR， 首 先 需 要 扩 
展 计 算 图 , 将 损失 值 加 入 其 中 。 首 先 计 算 p 的 各 分 量 的 对 数 ,之 后 计算 类 别 One-Hot 编码 与 对 数 
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概率 向 量 的 内 积 ， 最 后 将 结果 取 负 , 这 就 是 交叉 炉 。 我 们 还 需要 将 £2 正 则 项 加 到 损失 上 , 计算 权 
值 矩阵 由 所 有 元 素 的 平方 和 ， 乘 以 正则 化 强度 。 构 造 损失 值 计 算 图 的 代码 如 下 所 示 : 


# 构造 带 正则 项 的 损失 值 


12 lambda = 0.0005 

cost cross entropy = tf.reduce mean(-tf.reduce sum(y * tf.log(tf.clip by value(p, 1e-10, 1.0)), axis=1)) 
cost regularization 12 = 12 lambda * tf.reduce sum(tf.square(W)) 

loss = tf.add(cost cross entropy, cost regularization 12) 


tf.clip_by value 将 p 的 元 素 截断 在 [1e-10, 1.0] 区 间 ， 这 么 做 是 为 了 防止 概率 超过 1 或 过 小 


(导致 计算 不 稳定 )。tf.reduce_sum 可 以 沿 任 一 维度 计算 张 量 元 素 的 和 ， 若 没有 指定 axis 参数 ， 
则 计算 所 有 元 素 的 和 。 张 量 p 和 占 位 符 y 的 形状 都 是 ?x 10， 它 们 分 别 包含 一 批 样本 的 预测 概率 


和 类 别 One-Hot 编码 。 首 先 计 算 p 的 每 个 元 素 的 对 数 ， 再 与 y 逐 元 素 相 乘 ， 沿 着 第 2 维度 相 加 并 


取 反 ， 得 到 的 ?x1 张 量 是 这 批 样本 的 交叉 和 。 调 用 tf.reduce_mean 求 这 批 样本 的 平均 交叉 箭 。 
tf.square 计算 张 量 W 每 一 个 元 素 的 平方 , tf.reduce_sum 求 它们 的 和 , 乘 上 正则 化 强度 后 得 到 正 
则 项 , 正则 项 与 交 又 炉 相 加 就 是 损失 值 。 


至 此 我 们 已 经 构建 了 从 输入 到 损失 值 的 完整 计算 图 。 训练 , 就 是 将 损失 值 作为 权 值 和 偏 置 的 


函数 ， 用 梯度 下 降 法 更 新 权 值 和 偏 置 。TensorFlow 提供 了 对 计算 图 进行 前 向 和 反 向 传播 、 计 算 梯 


度 ， 


并 利用 梯度 更 新 变量 值 的 优化 器 ， 如 下 代码 所 示 : 

# 构造 梯度 下 降 优 化 器 

learning rate = 0.01 

optimizer = tf.train.GradientDescentOptimizer(learning rate) 


one gd step = optimizer.minimize(loss) 


用 tf.train.GradientDescentOptimizer 构造 一 个 梯度 下 降 优 化 器 , 学 习 率 是 0.01。 以 损失 值 


张 量 1oss 为 参数 调用 该 优化 器 的 mnimize 方法 , 得 到 一 个 优化 运算 one_gd_step。 在 会 话 中 每 执 
行 一 次 one_gd_step， 框 架 用 一 批 样本 前 向 传播 计算 损失 值 ， 反 向 传播 计算 梯度 ， 并 用 梯度 更 新 
所 有 变量 ， 这 就 是 Mini Batch 梯度 下 降 的 一 次 迭代 。 训 练 过 程 的 代码 如 下 : 


# 运用 梯度 下 降 法 训练 MLR 


batch size = 64 
epoch = 50 


with tf.Session() as sess: 
for i in range(epoch): 
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number batch = int(mnist.train.num examples / batch size) 
for j in range(number batch): 
train x, train y = mnist.train.next batch(batch size) 
_ = sess.run(one gd step, feed dict={X: train x, y: train y}) 


用 训练 集 样本 总 数 和 batch_size 计算 每 一 个 epoch 的 迭代 次 数 ， 调 用 mnist.train.next_batch 
获得 下 一 批 样本 和 类 别 One-Hot 编码 ， 将 它们 赋 给 占 位 符 。 在 会 话 中 执行 一 次 one_gd_step， 完 
成 一 步 梯 度 下 降 。 每 一 步 梯 度 下 降 后 ,可 以 计算 当前 模型 在 训练 集 和 测试 集 上 的 正确 率 , 代码 如 
下 所 示 : 


# 计算 当前 模型 在 训练 集 和 测试 集 上 的 正确 率 


correct prediction = tf.equal(tf.argmax(p, 1), tf.argmax(y, 1)) 
accuracy = tf.reduce mean(tf.cast(correct prediction, tf.float32)) 


with tf.Session() as sess: 
train acc = sess.run(accuracy, feed dict={X: mnist.train.images, y: mnist.train.labels}) 
test acc = sess.run(accuracy, feed dict={X: mnist.test.images, y: mnist.test.1labels}) 


上 述 代码 取 预 测 概率 和 类 别 One-Hot 编码 的 最 大 值 索 引 ， 它 们 分 别 对 应 着 预测 类 别 和 真实 
类 别 。 调 用 tf.equal 判断 它们 是 否 相等 ， 将 布尔 值 转 换 为 浮 点 值 后 求 平均 ， 就 得 到 了 一 批 样本 
上 的 正确 率 。 在 会 话 中 ， 分 别 将 训练 集 和 测试 集 的 样本 与 类 别 One-Hot 编码 赋 给 占 位 符 ， 得 到 
训练 集 和 测试 集 上 的 正确 率 。 另 外 ， 还 可 以 计算 模型 在 训练 集 和 测试 集 上 的 损失 值 ， 代 码 如 下 
所 示 : 


# 计算 当前 模型 在 训练 集 和 测试 集 上 的 损失 值 


with tf.Session() as sess: 
train loss = sess.run(loss, feed dict={X: mnist.train.images, y: mnist.train.labels}) 
test loss = sess.run(loss, feed dict={X: mnist.test.images, y: mnist.test.1labels}) 


训练 过 程 中 ， 每 一 步 迭 代 后 都 可 以 计算 当前 模型 在 训练 集 和 测试 集 上 的 损失 值 与 正确 率 。 
训练 结束 后 ， 可 将 训练 集 和 测试 集 上 的 损失 值 和 正确 率 随 迭 代 变化 的 曲线 绘制 出 来 ， 如 图 11-4 
所 示 。 
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损失 曲线 
1.6- 一 一 训练 集 损失 
| --- ”验证 集 损 失 
ji 正 06 
损 确 
| | 
… | hh bh | nN 
UY i I J 山 
o2- 一 一 训练 集 正确 率 
--- 测试 集 正确 率 
迭代 迭代 


11-4 ”MLR 的 损失 值 曲线 、 正 确 率 曲 线 
因为 训练 集 太 大 , 所 以 每 一 步 迭 代 后 是 在 当前 Mini Batch 上 计算 正确 率 和 损失 值 ， 故 曲线 较 


毛料。 测试 集 的 正确 率 和 损失 值 是 在 全 部 测试 样本 上 计算 的 ， 曲 线 较 平 消 。 训 练 完成 的 MLR 在 
测试 集 上 的 混淆 矩阵 如 图 11-5 所 示 。 


混淆 矩阵 


准 料 


预测 


图 11-5 ”MLR 在 测试 集 上 的 混 消 矩阵 
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这 并 不 是 一 个 足够 好 的 正确 率 。 可 以 看 到 ， 测 试 集 上 的 损失 值 曲 
型 仍 处 于 欠 拟 合 状态 。 对 于 MNIST 数据 集 来 说 ，MLR 的 自 


MLR 的 正确 率 是 91.8%， 
线 没 有 上 扬 , 说 明 没 有 过 拟 合 ,， 模 
度 是 不 够 的 。 

11.2 多 层 全 连接 神经 网 络 

MLR 相当 于 单 层 全 连接 神经 网 络 , 我 们 现在 为 MLR 添加 一 个 隐藏 层 , 形成 多 层 全 连接 神经 

网 络 MLP， 如 图 11-6 所 示 。 


| Ce 
> Ph 
wag ph 
x [609) 
| 3 > pz 
3 
x 
> pio 
X784 
bso 
图 11-6 单 隐藏 层 的 全 连接 神经 网 络 
这 个 MLP 以 784 维 向 量 为 输入 ,隐藏 层 神经 元 的 数量 取 90， 这 是 占 样 本 总 方差 90% 的 主 成 


分 数量 。 既 然 主 成 分 反映 了 样本 的 真实 维 数 ， 我 们 期 待 MLP 的 隐藏 层 能 够 学 习 并 利用 这 一 点 。 


令 Wr 是 90x784 的 矩阵 , 每 一 行 是 隐藏 层 神经 元 的 权 值 向 量 ,，b* 是 90 维 向 量 ， 每 个 分 量 是 
隐藏 层 神经 元 的 偏 置 。 令 Wo? 是 10 x 90 的 抢 阵 ， 每 一 行 是 输出 层 神 纪 2 b° 是 10 维 
向 量 ， 每 个 分 量 是 输出 层 神经 元 的 偏 置 。 用 和 矩阵 形式 表达 该 MLP 就 是 : 


p(X7g4) = SoftMax(Wr" : Logistic(Wrxzg4 + b*) + b°) (11.10) 


我 们 构造 这 个 MLP 的 计算 图 ， 代 码 如 下 : 
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# 构造 MLP 计算 图 


X = tf.placeholder(tf.float32, [None, 784]) 
y = tf.placeholder(tf.float32, [None, 10]) 


Wh = tf.Variable(tf.truncated normal([784, 90], stddev=0.01)) 
bh = tf.Variable(tf.zeros([90])) 
hi = tf.nn.relu(tf.matmul(X, Wh) + bh) 


Wo = tf.Variable(tf.truncated normal([90, 10], stddev=0.01)) 
bo = tf.Variable(tf.zeros([10])) 


p= tf.nn.softmax(tf.matmul(h1, Wo) + bo) 
权 值 以 0 均值 、0.01 标准 差 的 正 态 分 布 初始 化 ,绝对 值 超过 两 倍 标 准 差 则 截断 。 偏 置 初始 化 
为 0 值 。 tf.nn.relu 是 ReLU 激活 函数 。 交 叉 灼 构造 与 MLR 相同 。 我 们 对 MLP 的 两 个 权 值 矩 


阵 施 加 £52 正则 化 。£2 正 则 项 是 两 个 权 值 矩阵 所 有 元 素 的 平方 和 ， 青 乘 以 正则 化 强度 。 带 Zs 正则 
项 的 损失 函数 是 : 


Loss(W™°, bro |x784,y) = — PE yilogr ed + 4 (Fwh) + E(w) ) CU.1) 
构造 损失 值 张 量 的 代码 如 下 : 
# 构造 MLP 带 正 则 项 的 损失 函数 


12 lambda = 0.0005 

cost cross entropy = tf.reduce mean(-tf.reduce sum(y * tf.log(tf.clip by value(p, 1e-10, 1.0)), axis=1)) 
cost regularization 12 = 12 lambda * (tf.reduce sum(tf.square(Wh)) + tf.reduce sum(tf.square(Wo))) 
loss = tf.add(cost cross entropy, cost regularization 12) 


我 们 仍然 使 用 Mini Batch 梯度 下 降 训 练 MLP， 训 练 部 分 的 代码 与 MLR 完全 一 致 ， 这 里 不 再 
重复 。MLP 在 训练 集 和 测试 集 上 的 损失 值 和 正确 率 随 着 迭代 变化 的 曲线 如 图 11-7 所 示 。 
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图 11-7 MLP 的 损失 值 曲 线 、 正 确 率 曲线 


训练 完成 的 MLP 在 测试 集 上 的 混淆 和 矩阵 如 图 11-8 所 示 。 


混淆 矩阵 
oc 虹 B 归 0 0 2 0 4 7 2 3 0 


将 洱 


预测 


图 11-8 MLP 在 测试 集 上 的 混 清 矩阵 
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MLP 的 正确 率 达 到 95.1%， 超过 MLR。 如 果 要 继续 加 大 模型 的 自由 度 , 可 以 加 大 MLP 的 深 
度 。 两 隐藏 层 MLP 执行 的 计算 是 : 


(X784) = SoftMax(W’3 . Logistic(W? : Logistic(Wixzes + b1) +b)+b3) (11.12) 
p 


可 根据 式 ( 11.12 ) 构造 计算 图 ， 并 将 新 增 的 权 值 矩 阵 的 正则 项 加 到 损失 上 。 


11.3 LeNet-5 


我 们 构造 一 个 修改 版 LeNet-5， 它 与 第 10 章 描 述 的 LeNet-5 有 几 点 不 同 。 


口 卷 积 层 和 全 连接 层 采 用 ReLU， 而 不 是 Tanh; 

口 池 化 层 不 带 激活 函数 ; 

口 输出 层 采用 SoftMax， 而 不 是 高 斯 径 向 基 ; 

口 S3 和 C3 之 间 全 连接 ; 

口 以 28 x 28 原始 图 像 为 输入 ，C1 采用 补 零 填充 ， 而 不 是 舍弃 填充 。 


修改 版 LeNet-5 的 结构 如 表 11-1 所 示 。 


表 11-1 修改 版 LeNet-5 的 结构 


层 类 型 | 核 / 池 化 尺寸 | 步 幅 填充 输出 尺寸 ”| 输出 通道 数 激活 函数 
输入 层 = 二 > 3 28 x 28 1 一 

Cl 卷 积 5x5 1 补 零 28x28 6 ReLU 

S2 平均 值 池 化 2x2 2 补 零 14x 14 6 EE 

C3 卷 积 5x5 1 舍弃 10x 10 16 ReLU 

S4 平均 值 池 化 2x2 2 补 零 5x5 16 一 

C5 卷 积 5x5 1 舍弃 1x1l 120 ReLU 

Fo 全 连接 一 一 一 84 二 ReLU 
输出 层 全 连接 一 一 = 10 一 SoftMax 


构建 该 LeNet-5 的 计算 图 的 代码 如 下 : 


# 构造 LeNet-5 的 计算 图 


X = tf.placeholder(tf.float32, [None, 784]) 
y = tf.placeholder(tf.float32, [None, 10]) 
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X = tf.reshape(X, [-1, 28, 28, 1]) 


# 第 一 层 : 卷 积 层 输出 28*28*6 

conv1 w = tf.get_variable('conv1 w', [5, 5, 1, 6], 
initializer=tf.truncated normal initializer(stddev=0.05)) 

conv1 b = tf.get variable('conv1 b', [6], initializer=tf.constant initializer(0.0)) 
conv1 = tf.nn.conv2d(X, conv1 w, strides=[1, 1, 1, 1], padding="SAME') 

relu1 = tf.nn.relu(tf.nn.bias add(conv1, conv1 b)) 


# 第 二 层 : 平均 值 池 化 层 输 出 14*14*6 
pool2 = tf.nn.avg pool(relu1, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding="SAME') 


# 第 三 层 : 卷 积 层 输出 10*10*16 

conv3 w = tf.get variable('conv3 w', [5, 5, 6, 16], initializer=tf.truncated normal initializer 
(stddev=0.05)) 

conv3 b = tf.get variable('conv3 b', [16], initializer=tf.constant initializer(0.0)) 

conv3 = tf.nn.conv2d(pool2, conv3 w, strides=[1, 1, 1, 1], padding="VALID') 

relu3 = tf.nn.relu(tf.nn.bias add(conv3, conv3 b)) 


# 第 四 层 : 平均 值 池 化 层 输出 5*5*16 
pool4 = tf.nn.avg pool(relu3, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding="SAME') 


# 第 五 层 : 卷 积 层 输出 1*1*120 

conv5 w = tf.get variable('conv5 w', [5, 5, 16, 120], initializer=tf.truncated normal initializer 
(stddev=0.05)) 

conv5 b = tf.get variable('conv5 b', [120], initializer=tf.constant initializer(0.0)) 

conv5 = tf.nn.conv2d(pool4, conv5 w, strides=[1, 1, 1, 1], padding="'VALID') 

relu5 = tf.nn.relu(tf.nn.bias add(conv5, conv5 b)) 

reshaped relu5 = tf.reshape(relu5, [-1, 120]) 


# 第 六 层 : 全 连接 层 输 出 84 

fc6 w= tf.get variable('fc6 w', [120, 84], initializer=tf.truncated normal initializer(stddev=0.05)) 
tf.add to collection('losses', tf.reduce sum(tf.square(fc6 w))) 

fc6 b = tf.get variable('fc6 b', [84], initializer=tf.constant initializer(0.0)) 

fc6 = tf.nn.relu(tf.matmul(reshaped relu5, fc6 w) + fc6 b) 


# 输出 层 输出 10 

fco w= tf.get variable('fco w', [84, 10], initializer=tf.truncated normal initializer(stddev=0.05)) 
tf.add to collection('losses', (tf.reduce sum(tf.square(fco w))) 

fco b = tf.get variable('fco b', [10], initializer=tf.constant initializer(0.0)) 

fco = tf.matmul(fc6, fco w) + fco b 


p = tf.nn.softmax(fco) 
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所 有 卷 积 核 和 全 连接 层 的 权 值 都 以 0 均值 、0.05 标准 差 的 正 态 分 布 初始 化 , 绝对 值 超过 两 倍 
标准 差 则 截断 , 偏 置 初始 化 为 0 值 。 用 tf.nn.conv2d 对 输入 张 量 做 卷 积 运算 , 之 后 加 上 偏 置 并 施 
加 ReLU 激活 函数 ， 这 就 构造 了 卷 积 层 。 卷 积 核 的 形状 是 4 维 ， 例 如 [$, 5, 6, 16]。 这 4 个 维 数 的 
意思 是 : 卷 积 核 的 尺寸 是 5 x 5， 卷 积 核 的 “厚度 ”， 即 输入 通道 数 是 6， 共 有 16 个 卷 积 核 。16 
个 卷 积 核 各 有 一 个 偏 置 ， 所 以 偏 置 向 量 的 维 数 是 16。 


tf.nn.conv2d 的 参数 strides 包含 4 个 数 ， 分 别 是 batch 上 的 步 幅 、 横 向 步 幅 、 纵 向 步 幅 和 
输入 通道 上 的 步 幅 , 一 般 batch 和 输入 通道 上 的 步 幅 固定 为 1。 根据 LeNet-5 的 结构 , 卷 积 层 的 横 
向 和 纵向 步 幅 是 1， 所 以 strides 参数 是 [1，1，1，1]。C1 卷 积 层 的 填充 方式 是 补 零 ，C3 和 C5 
卷 积 层 的 填充 方式 是 舍弃 。 


tf.nn.avg_pool 是 平均 值 池 化 , 它 也 有 strides 参数 ,LeNet-5 池 化 层 的 步 幅 为 2, 所 以 strides 
参数 是 [1, 2, 2, 1]。ksize 参数 是 池 化 窗口 的 尺寸 , 4 个 数字 对 应 4 个 维度 , 这 里 取 [1, 2, 2, 1]。 
池 化 层 的 填充 方式 是 补 零 。 


全 连接 层 的 构造 方法 与 MLR 或 MLP 相同 。 注 意 , 代码 用 tf.add_to_collection 将 两 个 全 连 
接 层 权 值 矩阵 的 元 素平 方 和 添加 到 集合 losses 中 。 构造 损失 值 时 可 用 tf.get_collection 取出 这 
些 项 ， 乘 上 正则 化 强度 后 加 到 损失 上 。 构 造 损 失 值 张 量 的 代码 如 下 : 


# 构造 带 正则 项 的 损失 函数 


12 lambda = 0.0008 
cost cross entropy = tf.reduce mean(-tf.reduce sum(y * tf.log(tf.clip by value(p, 1e-10, 1.0)), axis=1)) 
loss = tf.add(cost cross entropy, 12 lambda * tf.add n(tf.get collection("losses"))) 


训练 部 分 的 代码 与 之 前 相同 ， 这 里 不 再 重复 。LeNet-5 在 训练 集 和 测试 集 上 的 损失 值 和 正确 
率 随 着 迭代 变化 的 曲线 如 图 11-9 所 示 。 
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图 11-9 LeNet-5 的 损失 值 曲 线 、 正 确 率 曲线 


训练 完成 的 LeNet-5 在 测试 集 上 的 混 淆 矩阵 如 图 11-10 所 示 。 


混淆 矩阵 
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图 11-10 ”LeNet-5 在 测试 集 上 的 混淆 和 矩阵 
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LeNet-5 的 正确 率 达 到 了 97.8%， 超 过 MLR 和 MLP。 我 们 没有 精细 地 调 优 模 型 ， 这 个 正确 
率 并 非 LeNet-5 在 MNIST 上 所 能 达到 的 最 佳 表现 。 


11.4 AlexNet 


接 下 来 我 们 尝试 AlexNet。 相 比 于 LeNet-5，AlexNet 的 复杂 性 上 了 一 个 台阶 。AlexNet 的 结 
构 中 重复 出 现 卷 积 层 、 池 化 层 以 及 全 连接 层 , 除了 具体 配置 不 同 , 构造 每 一 层 的 计算 图 的 方法 是 
一 致 的 ， 为 此 ， 我 们 首先 定义 几 个 辅助 函数 ， 代 码 如 下 : 


# 辅助 函数 


def conv(input tensor, name, kh, kw, dh, dw, n_output): 


mn 


卷 积 操作 


input tensor: tf Tensor 
name: 卷 积 层 名 称 
kh: 卷 积 核 高 
kw: 老 积 核 宽 

dh: 纵向 步 幅 

dw: 横向 步 幅 

n_output: 输出 size 


激活 层 


n_input = input tensor.get shape()[-1].value 


kernel = tf.get variable( 
name=name + 'kernel', 
shape=[kh, kw, n_input, n_output], 
dtype=tf.float32, 
initializer=tf.truncated normal initializer(stddev=0.05)) 
bias = tf.get variable( 
name=name + 'bias', shape=[n output], dtype=tf.float32, initializer=tf.constant initializer 


(0.0)) 


c = tf.nn.conv2d(input tensor, kernel, (1, dh, dw, 1), padding="SAME') 
return tf.nn.relu(tf.nn.bias add(c, bias), name=name) 


def max pool(input tensor, name, kh, kw, dh, dw): 
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mn 


最 大 池 化 操作 
参数 


input tensor: tf Tensor 
name: 名 称 

kh: 窗口 高 度 

kw: 窗口 宽度 


Tensor 


mn 


return tf.nn.max pool(input tensor, ksize=[1, kh, kw, 1], strides=[1, dh, dw, 1], padding="SAME", 
name=name) 


def fc(input tensor, name, n_output): 


mn 


全 连接 操作 
参数 


input tensor: tf Tensor 


name: 名 称 
n_output: 输出 Size 


激活 层 


nn 


n_input = input tensor.get shape()[-1].value 
weights = tf.get variable( 
name=name + 'weights', 
shape=[n_input, n_output], 
dtype=tf.float32, 
initializer=tf.truncated normal initializer(stddev=0.05)) 
tf.add to collection('losses', tf.nn.12 loss(weights)) 
bias = tf.get variable(name=name + 'bias', shape=[n output], dtype=tf.float32, initializer= 
tf.constant initializer(0.0)) 


return tf.nn.bias add(tf.matmul(input tensor, weights), bias) 
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这 几 个 辅助 函数 以 input_tensor 张 量 为 输入 ,构造 卷 积 层 、 全 连接 层 或 最 大 值 池 化 层 。 根 
据 前 文 的 讲解 以 及 代码 中 的 注释 , 读者 应 该 能 够 理解 这 几 个 函数 的 功能 ， 此 处 不 再 歼 述 。 上 述 代 
人 码 用 tf.nn.12_ loss 计算 全 连接 层 权 值 和 矩阵 的 元 素平 方 和 。 构 造 AlexNet 的 计算 图 的 代码 如 下 : 


# 构造 AlexNet 的 计算 图 


X = tf.placeholder(tf.float32, [None, 784]) 
tf.placeholder(tf.float32, [None, 10]) 


— 
二 


X = tf.reshape(X, [-1, 28, 28, 1]) 


# 卷 积 输入 shape 224*224*3 输出 shape 55*55*96 
conv 1 = conv(X, 'conv 1', 11, 11, 4, 4, 96) 


# 最 大 值 池 化 输出 shape 27*27*96 
pool 2 = max pool(conv 1, 'pool 2', 3, 3, 2, 2) 


# 卷 积 输出 shape 27*27*256 
conv 3 = conv(pool 2, 'conv 3', 5, 5, 1, 1, 256) 


# 最 大 值 池 化 输出 shape 13*13*256 
pool 4 = max pool(conv 3, 'pool 4', 3, 3, 2, 2) 


# 卷 积 输出 shape 13*13*384 
conv 5 = conv(pool 4, "conv 5', 3, 3, 1, 1, 384) 
conv 6 = conv(conv 5, 'conv 6', 3, 3, 1, 1, 384) 


# 卷 积 输出 shape 13*13*256 
conv 7 = conv(conv 6, 'conv 7', 3, 3, 1, 1, 256) 


# 最 大 值 池 化 输出 shape 6*6*256 
pool 8 = max pool(conv 7, 'pool 8', 3, 3, 2, 2) 


shape size = 1 
for i in range(1, 4): 

shape_size = shape size * pool 8.get shape()[-i].value 
reshaped = tf.reshape(pool 8, [-1, shape size], name="'reshaped') 


# 全 连接 层 
fc 9 = fc(reshaped, 'fc 9', 4096) 
relu fc 9 = tf.nn.relu(fc 9) 


fc 10 = fc(relu fc 9, 'fc 10', 4096) 
relu fc 10 = tf.nn.relu(fc 10) 
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fc output = fc(relu fc 10, 'fc output ，10) 
p = tf.nn.softmax(fc_output) 


这 个 计算 图 比 LeNet-5 复杂 得 多 ,但 暴露 在 外 的 仍 是 输入 样本 占 位 符 Xx、 类 别 One-Hot 编码 
占 位 符 y 和 预测 概率 向 量 p， 损 失 值 张 量 和 训练 部 分 只 关心 这 三 个 张 量 。 构 造 损失 值 张 量 的 代码 
和 LeNet-5 相同 ， 不 再 重复 。 这 次 我 们 采用 Adam 优化 器 ， 代 码 如 下 : 


# 构造 Adam 优化 器 


learning rate = 0.005 
optimizer = tf.train.AdamOptimizer(learning rate) 
one gd step = optimizer.minimize(loss) 


用 tf.train.AdamOptimizer 构造 Adam 优化 器 ， 学 习 率 为 0.005， 其 他 超 参数 取 默 认 值 。 训 
练 部 分 的 代码 和 之 前 一 样 ， 不 再 重复 。AlexNet 在 训练 集 和 测试 集 上 的 损失 值 和 正确 率 随 着 迭代 
变化 的 曲线 如 图 11-11 所 示 。 
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图 11-11 AlexNet 的 损失 值 曲线 、 正 确 率 曲线 
训练 完成 的 AlexNet 在 测试 集 上 的 混淆 和 矩阵 如 图 11-12 所 示 。 
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混 消 矩阵 


光源 


预测 


图 11-12 ”AlexNet 在 测试 集 上 的 混淆 和 矩阵 


AlexNet 的 正确 率 达 到 98.8% ， 相 对 LeNet-5 有 提升 。 


11.5 VGG16 


最 后 ,我 们 尝试 更 深 的 网 络 : VGG16。 本 节 构 造 的 VGG16 与 第 10 章 的 描述 有 三 点 不 同 。 


口 输入 形状 为 28 x 28 x 1; 
口 输出 层 神 经 元 个 数 为 10; 
口 两 个 全 连接 层 的 神经 元 个 数 都 为 128。 


利用 上 一 节 的 辅助 函数 构造 VGG16 的 计算 图 ， 代 码 如 下 : 
# 构造 VGG16 的 计算 图 


X = tf.placeholder(tf.float32, [None, 784]) 
y = tf.placeholder(tf.float32, [None, 106]) 


X = tf.reshape(X, [-1, 28, 28, 1]) 


# 卷 积 层 组 1 输入 shape 224*224*3, 输 出 shape 224*224*64 
conv 1 1 = conv(X, 'conv 1 1', 3, 3, 1, 1, 64) 
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conv 1 2 = conv(conv 1 1, "conv 1 2', 3, 3, 1, 1, 64) 


# 最 大 值 池 化 操作 输出 112*112*64 
pool 1 = max_pool(conv 1 2, 'pool 1', 2, 2, 2,2) 


# 卷 积 层 组 2 输出 112*112*128 
conv 2 1 = conv(pool 1, "conv 2 1', 3, 3, 1, 1, 128) 
conv 2 2 = conv(conv 2 1, 'conv 2 2', 3, 3, 1, 1, 128) 


# 最 大 值 池 化 操作 输出 56*56*128 
pool 2 = max_pool(conv 2 2, 'pool 2', 2, 2, 2, 2) 


# 卷 积 层 组 3 输出 56*56*256 

conv 3 1 = conv(pool 2, "conv 3 1'，3，3，1，1，256) 
conv 3 2 = conv(conv 3 1, "conv 3 2', 3, 3, 1, 1, 256) 
conv 3 3 = conv(conv 3 2, "conv 3 3', 3, 3, 1, 1, 256) 


# 最 大 值 池 化 操作 ， 输 出 28*28*256 
pool 3 = max_pool(conv 3 3, 'pool 3', 2, 2, 2，2) 


# 卷 积 层 组 4 输出 28*28*512 

conv 4 1 = conv(pool 3, "conv 4 1', 3, 3, 1, 1, 512) 
conv 4 2 = conv(conv 4 1, 'conv 4 2', 3, 3, 1, 1, 512) 
conv 4 3 = conv(conv 4 2, 'conv 4 3', 3, 3, 1, 1, 512) 


# 最 大 值 池 化 操作 输出 14*14*512 
pool 4 = max_pool(conv 4 3, 'pool 4', 2, 2, 2，2) 


# 卷 积 层 组 5 输出 14*14*512 

conv 5 1 = conv(pool 4, "conv 5 1'，3，3，1，1，512) 
conv 5 2 = conv(conv 5 1, "conv 5 2', 3, 3, 1, 1, 512) 
conv 5 3 = Conv(conv 5 2, "conv 5 3', 3, 3, 1, 1, 512) 


# 最 大 值 池 化 操作 输出 7*7*512 
pool 5 = max_pool(conv 5 3， 'pool 5', 2, 2, 2, 2) 


shape_size = 1 
for i in range(1, 4): 

shape_size = shape_size * pool 5.get_ shape()[-i].value 
reshaped = tf.reshape(pool 5, [-1, shape_size], name="'reshaped') 


# 全 连接 层 输出 16 
fc 6 = fc(reshaped, 'fc_6', 128) 
relu fc 6 = tf.nn.relu(fc 6) 
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fen = fe(rolunfcaen Fc/ 28》 
relu fc 7 = tf.nn.relu(fc_7) 


ele = Ferelurfca/ Fe lo) 
p = tf.nn.softmax(fc_8) 


构造 损失 值 张 量 和 训练 部 分 的 代码 与 AlexNet 相同 ， 不 再 重复 。VGG16 在 训练 集 和 测试 集 
上 的 损失 值 和 正确 率 随 迭 代 变化 的 曲线 如 图 11-13 所 示 。 
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图 11-13 VGG16 的 损失 值 曲线 、 正 确 率 曲 线 


VGG16 在 测试 集 上 的 正确 率 达 到 了 99.4%, 已 臻 完美。 训练 完成 的 VGG16 在 测试 集 上 的 混 
清和 矩阵 如 图 11-14 所 示 。 
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混淆 矩阵 


顶 测 


图 11-14 VGG16 在 测试 集 上 的 混 消 矩阵 


11.6 ”小结 


本 章 围绕 MNIST 手写 数字 识别 问题 ， 展 示 了 如 何 使 用 TensorFlow 构造 和 训练 多 分 类 逻辑 回 
归 、 多 层 全 连接 神经 网 络 、LeNet-5、AlexNet 和 VGG16 模型 。 这 5 种 模型 从 线性 到 非 线性 、 从 
全 连接 到 局 部 连接 、 从 浅 到 深 ， 表现 也 愈加 优秀 。MNIST 手写 数字 识别 本 质 上 是 一 个 784 维特 
征 的 10 分 类 问题 ， 作 为 图 像 识别 问题 MNIST 相对 简单 ， 但 作为 传统 机 器 学 习 问 题 ， 从 特征 维 
数 和 样本 量 来 说 , MNIST 属于 较 大 型 的 问题 。 我们 看 到 深度 学 习 模 型 在 MNIST 上 的 表现 明显 超 
过 传统 模型 。 


本 章 的 示例 很 简单 ， 主 要 着 重用 代码 展示 相关 的 理论 和 概念 ， 而 并 没有 涉及 专业 级 的 
TensorFlow 编程 和 模型 调 优 。 无 论 是 TensorFlow 还 是 其 他 机 器 学 习 / 深 度 学 习 框 架 ， 都 是 概念 和 
原理 的 实现 ， 只 有 深刻 地 掌握 了 原理 ， 使 用 这 些 库 时 才能 做 到 “ 恢 恢 乎 其 于 游 甩 上 必 有 余地 ”， 而 
不 至 于 迷失 在 概念 的 迷宫 中 。“ 调 包 调 库 ” 并 不 简单 ， 五 花 八 门 的 模型 和 超 参 数 就 像 是 一 部 复杂 
机 器 的 旋钮 ， 只 有 理解 原理 才能 知道 每 个 旋钮 的 作用 ， 从 而 精细 地 调节 模型 。 


基础 理论 的 演进 没有 表面 的 技术 和 工具 的 演进 那么 迅速 , 它们 是 相对 稳定 的 , 但 也 是 最 艰深 
的 。 为 什么 要 掌握 基础 理论 ? 在 人 工 智能 时 代 ,， 新 模型 和 新 工具 以 井喷 之 势 大 量 涌现 , 但 底层 的 
理论 基础 是 共通 的 。 只 有 深刻 掌握 基础 理论 , 才能 具备 洞悉 本 质 的 眼光 , 迅速 理解 并 精 当 使 用 这 
些 新 模型 和 新 工具 ， 这 是 一 个 机 带 学 习 工 程 师 最 大 的 本 领 和 价值 。 


CNN 与 元 胞 目 动 机 


第 10 章 我 们 提 到 , 在 CNN 的 演化 历程 中 存在 卷 积 核 变 小 而 深度 增加 的 趋势 , 局 部 性 和 深度 
是 现代 CNN 的 一 个 显著 特征 。 局 部 性 和 深度 的 含义 是 什么 ”背后 有 什么 原理 ?目前 这 尚 是 一 个 
开放 问题 。 本 章 尝 试 在 卷 积 层 与 元 胞 自动 机 之 间 建 立 联 系 , 从 元 胞 自动 机 的 动力 学 角度 分 析 CNN 
局 部 性 和 深度 的 意义 。 


元 胞 自动 机 是 一 种 基于 局 部 规则 的 离散 动力 系统 ,， 它 具有 “ 自 组 织 ” 的 特性 ,能 够 从 简单 的 
规则 中 涌现 复杂 而 奇妙 的 结构 和 行为 。 本 章 首 先 介绍 元 胞 自动 机 的 定义 , 接着 在 多 层 卷 积 层 与 元 
胞 自动 机 之 间 建 立 联系 。 我 们 会 看 到 ， 多 层 卷 积 层 所 执行 的 计算 就 是 元 胞 自动 机 随时 间 的 运行 。 
接着 ,我 们 介绍 元 胞 自动 机 的 分 类 ， 以 及 不 同类 别 的 元 胞 自动 机 的 行为 。 在 讲解 图 灵 可 计算 性 的 
相关 理论 之 后 , 我 们 介绍 部 分 元 胞 自动 机 规则 的 图 灵 完 备 性 。 最 后 ,本 章 从 动力 学 吸引 子 和 分 贫 
的 角度 为 CNN 的 分 类 能 力 和 训练 过 程 提供 一 些 有 趣 的 观察 和 推测 。 


所 有 这 些 内 容 ， 都 是 为 理解 “深度 ”这 个 深度 学 习 核 心 概念 提供 一 个 新 的 视角 。 需 要 注意 ， 
本 附录 中 的 一 些 说 法 仅 是 作者 的 猜测 , 读者 应 该 注意 对 其 中 未 经 验证 的 假说 加 以 甄别 和 防范 。 欢 
迎 有 兴趣 的 读者 对 本 章 的 一 些 猜测 做 实际 的 实验 观察 。 


A.1 二 维 元 胞 自动 机 与 CNN 


将 二 维 平面 划分 成 网 格 ( lattice ), 每 个 小 格子 称 为 元 胞 ( cell ), 元 胞 可 取 k 个 值 0, 1,…,k 一 1。 元 
胞 的 值 随 离散 的 时 刻 0, 1, 2, … 发 生变 化 。 元 胞 在 下 一 时 刻 的 值 取决 于 它 的 邻 域内 的 元 胞 ( 含 自 
己 ) 在 本 时 刻 的 值 ， 这 就 是 (二 维 ) 元 胞 自动 机 ( cellular automata，CA )。 邻 域 的 大 小 任意 ,， 例 
如 3x3，5x5 等 。 如 果 邻 域 从 中 心 向 各 方向 延伸 r 个 元 胞 ， 则 称 该 邻 域 为 r- 邻 域 。 例 如 大 小 为 
3x3 的 邻 域 是 1- 邻 域 。 网 格 上 全 体 元 胞 的 一 组 特定 取 值 称 为 一 个 构 型 (configuration )。 邻 域内 
全 体 元 胞 的 一 组 特定 取 值 称 为 邻 域 构 型 。 
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KC2r+3 种 不 同 的 邻 域 构 型 。 


二 维 CA 的 r- 邻 域 包含 (2r + 1)? 个 元 胞 ， 每 个 元 胞 有 k 种 取 值 ， 所 以 二 维 CA 的 r- 邻 域 共有 


根据 当前 邻 域 构 型 决定 中 心 元 胞 下 一 时 刻 取 值 的 规则 是 一 个 映射 ， 
它 将 Ke2r+D? 种 邻 域 构 型 映射 到 K 个 值 。 这 样 的 规则 (映射 ) 共有 kr” 种 ， 每 一 


种 规则 决定 了 


条 2 = 站 人 oy. ~ 
一 种 7- 邻 域 二 维 CA， 也 就 是 说 共有 k***” 种 7- 邻 域 二 维 CA。John Conway 设计 的 生命 游戏 


( game of life ) 是 k 为 2, 7 为 1 的 二 维 CA， 它 采用 如 下 规则 。 

口 若 中 心 元 胞 值 为 1 且 邻 域内 除 自 己 外 少 于 两 个 元 胞 值 为 1， 则 中 心 元 胞 下 一 时 刻 值 为 0 
( 人口 过 少 ) ; 

口 若 中 心 元 胞 值 为 1 且 邻 域内 除 自己 有 两 或 三 个 元 胞 值 为 1， 则 中 心 元 胞 下 一 时 刻 值 为 1 
(人 口 适 中 ) ; 

口 若 中 心 元 胞 值 为 1 且 邻 域内 除 自己 有 超过 三 个 元 胞 值 为 1， 则 中 心 元 胞 下 一 时 刻 值 为 0 
(人 口 过 剩 ) ; 

口 知 中 心 元 胞 值 为 0 且 邻 域内 正好 有 三 个 元 胞 值 为 1， 则 中 心 元 胞 下 一 时 刻 值 为 1( 繁 殖 ) 。 


生命 游戏 按照 这 个 规则 运行 起 来 会 产生 各 种 结构 ， 有 的 结构 保持 不 变 ， 有 的 结构 循环 变形 ， 
有 的 结构 循环 变形 的 同时 在 网 格 中 运动 , 还 有 的 结构 不 停 生成 并 发 射出 新 的 小 结构 。 图 A-1 展示 
了 一 种 变形 结构 。 


和 


图 A-1 生命 游戏 的 一 种 变 


二 维 CA 的 规则 与 卷 积 层 执行 的 计算 类 似 ， 它 们 都 是 根据 邻 域 的 值 确 定 中 心 位 置 的 值 。 例 如 
这 样 的 规则 y: 车 邻 域内 有 3 个 ( 含 ) 以 上 元 胞 的 值 为 1， 则 下 一 时 刻 中 心 元 胞 为 1， 否 则 为 0。 
可 以 构造 一 个 仿 射 加 激活 的 函数 实现 这 个 规则 ， 令 向 量 w 的 分 量 都 为 1， 将 邻 域内 全 体 元 胞 的 值 
列 成 向 量 x， 构 造 函 数 : 


0, wix—3<0 
/w= ey (A.1) 
式 (A.1 ) 先 对 输入 施加 权 值 全 为 1、 偏 置 是 -3 的 仿 射 函数 ， 之 后 施加 阶 跃 函数 。 若 将 权 值 


向 量 排 成 方 阵 ， 
数 , 我 们 就 构造 了 一 个 卷 积 


就 是 一 个 二 维 卷 积 核 。 以 该 方 阵 为 卷 积 核 、 以 -3 为 偏 置 ， 以 阶 跃 函数 为 激活 函 
有 巡 。 这 个 卷 积 层 对 当前 构 型 的 输出 , 正 是 当前 构 型 在 规则 y 下 的 变化 。 
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巧 


如 果 二 维 网 格 不 是 无 限 延 伸 的 ， 可 将 网 格 的 对 边 连 在 一 起 ， 构 成 如 图 A-2 所 示 的 圆 环 面 
(torus )， 网 格 边缘 元 胞 的 邻 域 扩展 到 网 格 对 侧 。 相 应 地 ， 若 卷 积 层 采取 翻转 ( wrap ) 填充 方式 ， 
就 可 以 模拟 圆 环 面 上 的 CA。 


单个 卷 积 核 无 法 模拟 全 部 规则 。 以 上 为 2、7 为 1 的 CA 为 例 , 它 的 2 种 邻 域 构 型 的 每 一 种 都 
是 9 维 单位 立方 体 的 一 个 顶点， 规则 将 这 些 顶 点 映射 到 0 或 1， 相 当 于 将 这 些 顶 点 分 为 两 类 。 卷 
积 核 是 一 个 线性 模型 ， 若 某 个 规则 是 线性 不 可 分 的 ， 则 单个 卷 积 核 无 法 模拟 它 。 


W 


~ 


可 以 使 用 多 个 卷 积 核 模 拟 线性 不 可 分 规则 , 令 每 一 个 卷 积 核 模 拟 一 个 线性 可 分 规则 , 再 将 它 
们 的 结果 线性 组 合 , 之 后 施加 阶 路 函数 。 这 和 把 多 个 线性 模型 组 合 起 来 形成 非 线 性 分 界面 的 原理 
相同 。 上 述 办 法 相当 于 在 一 个 多 卷 积 核 卷 积 层 之 后 连接 一 个 1 x 1 的 单 卷 积 核 卷 积 层 。 上 一 章 介 
绍 的 局 部 响应 标准 化 (LRN ) 技术 可 以 迫使 同 卷 积 层 的 不 同 卷 积 核 形 成 差异 ， 有 利于 它们 合作 模 
拟 线性 不 可 分 规则 。 从 模拟 CA 的 角度 看 ，1 x 1 卷 积 核 和 LRN 技术 具有 这 样 的 意义 。 


所 以 ， 用 一 个 多 卷 积 核 卷 积 层 后 连 1 x 1 单 卷 积 核 卷 积 层 ( 共 两 层 )， 就 可 以 模拟 任何 CA 规 
则 ,为 了 论述 简洁 ,后 文 我 们 说 用 卷 积 层 模 拟 某 规 则 , 其 实 是 指 这 样 的 复合 层 。 把 n 个 模拟 规则 y 的 
相同 卷 积 层 连接 成 一 个 深度 为 n 的 CNN, 以 某 个 初始 构 型 作为 这 个 CNN 的 输入 , 计算 该 CNN 的 
输出 ， 这 相当 于 一 个 CA 在 规则 y 下 从 初始 构 型 开始 运行 n 步 ， 如 图 A-3 所 示 。 
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< 元 胞 自动 机 运行 n 步 


< 之 
关 Ce x NE ?类 


深度 : CNN 的 n 个 卷 积 层 


图 A-3 ?个 卷 积 层 相当 于 元 胞 自动 机 运行 ? 步 


CA 和 卷 积 层 不 限于 二 维 ， 一 维 CA 的 网 格 是 一 个 无 限 或 有 限 长 的 条 带 。 若 条 带 长 度 有 限 ， 
则 我 们 可 以 将 其 视 作 首 尾 相 接 的 圆 环 。 一 维 r- 邻 域 由 向 左右 延伸 各 7 个 位 置 的 2r + 1 个 元 胞 组 成 。 
Kk 种 取 值 、r- 邻 域 的 一 维 CA 共有 K2r+1 种 邻 域 构 型 和 ”种 规则 。 一 维 卷 积 层 可 以 模拟 一 维 CA 
规则 ， 如 图 A-4 所 示 。 


元 胞 自动 机 运行 n 步 


初始 构 型 ” 第 1 步 第 2 步 第 n-2 步 ”第 n-1 步 第 n 步 


i 
是 
Wi 
i 


输入 卷 积 层 卷 积 层 2 卷 积 层 n-2 ” 卷 积 层 n-1 ” 卷 积 层 n 


二 一 一 一 一 一 一 一 一 深度 : CNN 的 n 个 卷 积 层 


图 A-4 一 维 卷 积 层 模 拟 一 维 CA 的 运行 
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注意 ， 我 们 用 来 模拟 CA 的 是 一 类 很 受 限 的 CNN， 它 们 的 所 有 卷 积 层 都 相同 。 上 文 说 过 任 
何 CA 都 可 以 用 CNN 模拟 , 但 是 否 任何 CNN 都 可 以 被 CA 模拟 呢 ? 答案 好 像 是 否定 的 ， 因 为 普 
通 CNN 比 我 们 用 来 模拟 CA 的 这 类 受 限 的 CNN 要 灵活 得 多 。 即 使 不 考虑 池 化 、 全 连接 以 及 其 他 
各 种 组 件 ， 至 少 普通 CNN 不 要 求 所 有 卷 积 层 都 相同 。 但 是 在 后 文 介绍 了 图 灵 完 备 性 后 ， 我 们 会 
知道 其 实 CA 是 可 以 模拟 普通 CNN 的 。 


我 们 的 目的 是 探究 深度 的 含义 ， 我 们 可 以 只 在 这 类 受 限 的 CNN 下 进行 考察 ， 如 果 能 在 受 限 
的 情况 下 稍稍 洞悉 深度 的 含义 ， 这 对 我 们 理解 普通 CNN 力 至 其 他 深度 模型 都 是 有 启发 的 。 既 然 
( 受 限 的 ) CNN 的 深度 等 价 于 它 所 模拟 的 CA 的 运行 步 数 ， 那 么 观察 CA 的 长 期 运行 行为 也 许可 
以 为 理解 深度 提供 一 些 洞 见 。 在 一 维 情况 下 方便 更 清晰 地 分 析 和 展示 CA 的 行为 ,， 所 以 下 文 以 一 
维 CA 为 例 进 行 讲解 。 


A.2 元 胞 自动 机 的 行为 和 分 类 


K 为 2、7 为 1 的 一 维 CA 称 作 基本 元 胞 自动 机 (elementary cellular automata，ECA )。ECA 是 


最 简单 的 元 胞 自动 机 ， 它 有 2 = 8 种 邻 域 构 型 。ECA 的 邻 域 构 型 是 三 维 立方 体 的 8 个 顶点 ， 如 
图 A-5 所 示 。 
@001 
图 011 
@101 
@! 
@000 
@@010 
@100 
@110 


图 A-5 ECA 的 8 种 邻 域 构 型 
将 ECA 的 8 种 邻 域 构 型 写成 二 进 制 数 : 000、001、010、011、100、101、110、111， 规 则 
为 每 种 邻 域 构 型 分 配 0 或 1， 例 如 表 A-1 所 示 的 规则 。 


表 A-1 ECA 规则 110 


邻 域 构 型 | 111 (7) 110 (6 ) 101 (5) 100 (4) 011 (3) 010 (2) 001 (1) 000 (0) 
值 0 1 1 0 1 1 1 0 
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表 A-1 中 的 规则 可 看 作 8 位 二 进 制 数 ，011011102。 该 二 进 制 数 是 十 进 制 的 11016。， 所 以 这 
个 规则 被 称 为 “规则 110”。 每 一 个 8 位 二 进 制 数 都 对 应 一 种 ECA 规则 ， 共 有 2 = 256 种 规则 。 
用 对 应 的 十 进 制 数 命名 它们 ， 就 是 规则 0~255。 可 以 用 3 维 单位 立方 体 展示 规则 : 白色 顶点 表示 
规则 将 该 邻 域 构 型 映射 到 0， 黑色 顶点 表示 映射 到 1， 如 图 A-6 所 示 。 可 以 看 到 规则 110 是 线性 
不 可 分 的 。 


100 
@1'°0 


图 A-6 规则 110 的 单位 立方 体 


A.2.1 相 空 间 、 轨 迹 与 吸引 子 


若 网 格 条 带 长 度 为 2， 则 ECA 共有 2" 种 构 型 (不 是 邻 域 构 型 ， 而 是 整个 网 格 条 带 的 构 型 )。 
所 有 构 型 的 集合 称 为 相 空 间 ( phase space )。 每 一 种 构 型 都 是 相 空 间 中 的 一 个 点 ， 表 示 网 格 条 带 
的 一 个 状态 。 规 则 确定 了 当前 构 型 在 下 一 时 刻 的 变化 。 从 一 个 初始 构 型 出 发 ， 规则 决定 了 构 型 在 
相 空 间 中 演化 的 轨迹 。ECA 是 一 个 确定 性 的 离散 动力 系统 。 


图 A-7 中 的 点 表示 网 格 条 带 长 度 为 12 的 ECA 的 构 型 ， 共 有 4096 种 ， 箭 头 表示 构 型 在 规则 
90 下 的 变化 ， 箭 头 尾 部 的 构 型 变化 为 箭头 指向 的 构 型 。 箭 头 连 成 的 有 向 路 径 就 是 该 ECA 在 规则 
90 下 所 有 可 能 的 构 型 演化 轨迹 (trajectory )。 


和 到 6 Copies A 人 Copie 


图 A-7 网 格 条 带 长 度 为 12 的 ECA 在 规则 90 下 的 演化 轨迹 ( 来自 参考 文献 [11] ) 
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可 以 看 出 ,全 部 构 型 被 轨迹 连接 成 若干 互相 隔离 的 复 ， 这 些 篮 具 有 三 种 形态 ， 每 种 形态 都 有 
多 个 副本 。 有 些 构 型 没有 前 导 构 型 ， 如 图 中 位 于 簇 外 围 边缘 的 构 型 ， 即 规则 90 不 会 把 任何 构 型 
变 成 它们 。 除非 作为 初始 构 型 , 否则 这 样 的 构 型 不 会 在 ECA 的 演化 中 出 现 。 若 它们 是 初始 构 型 ， 
规则 90 下 的 演化 一 旦 启动 ， 就 再 也 不 会 回 到 它们 。 


该 ECA 的 所 有 构 型 在 规则 90 下 最 多 经 过 两 步 就 进入 一 个 循环 。 例 如 顶部 的 篮 的 边缘 构 型 经 
过 两 步 进入 一 个 由 4 个 构 型 形成 的 循环 。 在 规则 90 下 , 该 ECA 从 任意 初始 构 型 出 发 经 过 一 定时 
间 的 演化 就 会 落 和 一 个 构 型 的 子 集 , 该 子 集 以 外 的 构 型 在 之 后 的 演化 中 不 再 出 现 , 这 个 子 集 称 为 
吸引 子 (attractor )。 


吸引 子 若 包含 若干 不 连通 的 子 集 ， 则 也 可 以 将 这 些 子 集 视 为 更 细 粒 度 的 吸引 子 。 该 ECA 在 
规则 90 下 共有 60 + 6+4=70 个 不 可 再 分 的 细 粒 度 吸引 子 。 在 这 些 吸引 子 中 ， 有 些 是 稳定 的 点 ， 
称 为 稳定 点 (stable point ); 有 些 是 若干 构 型 的 循环 ， 称 为 极限 环 (limiting circle )。 还 有 更 复杂 
的 吸引 子 ， 后 文 会 做 介绍 。 


A.2.2 不可逆 性 、 信 息 按 除 与 灶 减 


从 相 空 间 轨迹 图 可 以 看 出 ， 规 则 90 有 可 能 将 两 条 轨迹 合并 。 若 规则 不 是 单 射 ， 则 它 有 可 能 
将 不 同 构 型 映射 到 同一 个 构 型 ， 这 就 导致 了 轨迹 的 合并 。 在 确定 性 动力 系统 中 ,每 个 构 型 的 后 续 
演化 是 确定 的 ， 但 在 会 合并 轨迹 的 规则 下 ， 每 个 构 型 的 前 导 构 型 不 确定 。 从 ECA 的 当前 构 型 可 
以 确定 后 续 任 意 步 的 运行 路 径 , 但 无 法 确定 之 前 的 运行 路 径 。 用 当前 构 型 可 以 确定 未 来 , 但 无 法 
推测 过 去 ,我 们 称 这 样 的 动力 系统 是 不 可 逆 的 〈irreversible )。 不 可 逆 系 统 会 丢失 信息 ， 或 者 说 不 
可 逆 规 则 会 擦 除 信息 。 


不 可 逆 规 则 在 运行 中 会 将 轨迹 合并 , 导致 一 些 构 型 不 再 出 现 。 令 初始 构 型 服从 全 体 构 型 上 的 
9 人 匀 分 布 ， 在 不 可 道 规 则 下 ， 随 着 ECA 的 运行 ， 某 些 构 型 出 现 的 概率 会 降 为 零 ， 那 些 概率 没有 
降 为 零 的 构 型 就 构成 了 吸引 子 -ECA 落 到 吸引 子 之 前 的 时 间 称 为 瞬 态 ( transient ), 瞬 态 是 暂时 的 ， 
ECA 最 终 会 被 吸引 到 吸引 子 上 。 如 果 规 则 是 可 逆 的 ， 相 空间 中 的 每 一 条 轨迹 都 可 以 沿 着 正 向 和 
反 向 追溯 ， 构 型 的 概率 分 布 不 随 运 行 变 化 ， 可 逆 系 统 的 吸引 子 是 全 体 构 型 。 


构 型 的 概率 分 布 决定 系统 的 炉 ， 可 逆 系 统 的 粹 不 变 ， 而 不 可 道 系统 的 烂 会 随 着 运行 而 降低 。 
前 文 阅 过 ， 不 可 逆 规 则 的 执行 会 擦 除 信息 ， 根 据 Landauer 原理 :“ 任 何不 可 逆 过 程 ， 例 如 擦 除 信 
息 或 合并 轨迹 ， 都 伴随 着 信息 载体 之 外 的 环境 的 焙 增 。” 即 运行 不 可 逆 系 统 的 物理 装置 会 导致 环 
境 的 焙 增 ， 也 就 是 说 它 消耗 能 量 。 
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不 可 逆 程 度 不 同 的 规则 擦 除 信 息 的 能 力 不 同 , 导致 它们 的 吸引 子 有 不 同 的 灶 。 稳 定点 的 精 最 
低 ,， 极限 环 的 概率 在 构成 循环 的 多 个 构 型 间 均 匀 分 布 ， 炳 稍 高 。 有 些 规则 使 ECA 在 瞬 态 展现 出 
“ 自 组 织 ” 行 为 : 随 着 运行 ， 构 型 能 够 形成 一 些 复杂 、 持 久 且 相互 间 有 交互 的 结构 ， 一 种 消耗 能 
量 维持 自身 秩序 的 结构 , 即 普 利 高 津 的 耗 散 结构 ( dissipative structure )。 这 就 是 醉 定 证 所 说 的 “ 生 
命 以 负 信 为 食 ”(《 生命 是 什么 》)。 


A.2.3 ” 康 托 尔 集 与 分 形 维 数 

若 ECA 的 网 格 条 带 长 度 为 10, 则 它 一 共有 28 = 1024 种 构 型 , 令 初 始 构 型 以 等 概率 取 这 1024 
种 构 型 之 一 ， 并 运行 规则 10。 规 则 10 是 不 可 道 的 ， 随 着 运行 轨迹 发 生 合并 ， 部 分 构 型 的 概率 降 
为 零 ， 如 图 A-8 所 示 。 


RULE : 8901i9ele (18) 
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图 A-8 ” 构 型 概率 随 着 规则 10 运行 而 变化 (来自 参 考 文献 [11] ) 


图 中 将 1024 种 构 型 排 成 一 行 ， 行 是 一 个 时 间 步 。 行 内 每 一 个 点 表示 对 应 的 构 型 的 概率 
是 否 非 零 : 黑色 表示 构 型 概率 非 零 ,无 色 表 示 构 型 概率 为 零 。 图 中 的 一 列 就 是 某 一 构 型 的 概率 变 
化 。 随 着 ECA 运行 ， 有 些 构 型 的 概率 降 为 零 ， 有 些 构 型 的 概率 保持 非 零 。 最 终 概 率 非 零 的 构 型 
组 成 规则 10 的 吸引 子 。 


长 度 无 限 的 网 格 条 带 的 构 型 是 无 限 长 度 的 0-1 串 ， 若 将 无 限 长 度 的 0-1 串 作为 [0, 1] 区 间 内 二 


进 制 实数 的 小 数 部 分 , 则 构 型 可 与 [0, 1] 区 间 内 的 实数 一 一 对 应 。 规则 的 吸引 子 有 可 能 包含 有 穷 个 
构 型 ， 也 有 可 能 包含 无 穷 个 构 型 。 有 些 规则 的 吸引 子 构成 一 个 康 托 尔 集 (Contor set )。 


最 简单 的 三 分 康 托 尔 集 是 这 样 构造 的 ; 将 [0, 1] 区 间 内 的 实数 的 中 间 三 分 之 一 , 即 (2, 3) 抠 除 ， 
只 保留 左右 两 个 三 分 段 ， 然 后 再 对 剩 下 的 这 两 个 三 分 段 执行 同样 的 抠 除 ， 此 过 程 无 限 进行 下 去 ， 
得 到 的 集合 就 是 三 分 康 托 尔 集 ， 如 图 A-9 所 示 。 
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1/3 


1 


图 A-9 三 分 康 托 尔 集 


三 分 康 托 尔 集 和 [0, 1] 区 间 内 的 实数 可 以 一 一 对 应 , 任意 [0, 1] 区 间 内 的 实数 写成 二 进 制 都 是 小 
数 点 后 一 串 无 穷 长 度 的 0-1 串 ， 例 如 0.110110010 .……， 以 0-1 串 的 每 一 位 为 指示 : 若 遇 0 则 选择 左 
侧 三 分 段 ; 若 遇 1 则 选择 右 侧 三 分 段 ， 这 样 ， 每 一 个 无 穷 0-1 串 就 确定 了 一 个 三 分 康 托 尔 集中 的 
数 。 反 过 来 ， 根 据 一 个 数 在 每 个 层次 位 于 左 或 右 哪个 三 分 段 ， 就 决定 了 唯一 的 一 个 无 穷 0-1 串 。 


三 分 康 托 尔 集 具 有 自 相似 性 (self-similarity ): 将 任意 一 个 层次 上 的 一 个 三 分 段 放大 , 会 发 现 
它 具 有 与 整个 三 分 康 托 尔 集 同样 的 结构 。 三 分 康 托 尔 集 是 一 个 分 形 〈fractal )， 它 具有 分 数 维 数 


( fractal dimension )。 


分 数 维 数 有 和 多 种 定义 ,可 以 用 自 相似 性 定义 分 数 维 数 。 三 分 康 托 尔 集 的 每 个 三 分 段 含 有 2 个 
尺度 是 自身 ?， 且 与 自身 相同 的 段 ， 于 是 它 的 分 数 维 数 定义 为 log3 ~ 0.63。 还 有 其 他 康 托 尔 集 ， 
比如 将 中 间 二 分 之 一 段 抠 除 。 这 样 形成 的 康 托 尔 集 称 为 二 分 康 托 尔 集 。 二 分 康 托 尔 集 的 每 个 段 仿 
有 2 个 尺度 是 自身 -， 且 与 自身 相同 的 段 ， 所 以 它 的 分 数 维 数 是 log? = 0.5。 基 于 同样 的 理由 ,二 
分 康 托 尔 集 也 是 无 穷 的 , 且 可 与 [0, 1] 区 间 内 的 实数 一 一 映射 , 所 以 二 分 和 三 分 康 托 尔 集 具有 相同 
的 基数 cardinal number )， 但 是 二 分 康 托 尔 集 的 分 数 维 数 小 于 三 分 康 托 尔 集 。 


还 有 男 一 种 分 数 维 数 的 定义 ， 如 果 最 少 需要 N(e) 个 长 度 为 e 的 线段 才能 徐 盖 康 托 尔 集 ， 则 该 
康 托 尔 集 的 分 数 维 数 是 : 


N(e) 
d = lims ,0 eT (A.2) 


loge 


这 种 分 数 维 数 称 为 豪 斯 多 夫 维 数 。 考 察 三 分 康 托 尔 集 的 豪 斯 多 夫 维 数 : 它 在 第 n 个 层次 上 可 
以 被 2 个 长 度 为 3 的 线段 覆盖 ， 即 N = 2"， 豪 斯 多 夫 维 数 是 : 


2n 
d = lim,,o ES = log3 ( A.3) 


三 分 康 托 尔 集 的 豪 斯 多 夫 维 数 与 基于 自 相 似 的 维 数 相同 。 [0, 1] 线 段 可 以 被 = 个 长 度 为 = 的 线段 
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履 盖 ， 它 的 豪 斯 多 夫 维 数 是 1。 由 有 穷 个 数组 成 的 集合 可 以 被 有 穷 条 任意 短 的 线段 覆盖 ， 所 以 它 
的 豪 斯 多 夫 维 数 是 零 。 豪 斯 多 夫 维 数 是 普通 维 数 的 扩展 ， 以 下 我 们 一 律 采用 罕 斯 多 夫 维 数 。 


若 规 则 是 可 道 的 ， 随 着 运行 ，ECA 将 遍历 所 有 构 型 ， 每 一 个 构 型 都 保持 非 零 概率 ， 称 这 样 的 
规则 具有 可 遍历 性 ( ergodicity )。 可 道 规 则 运行 时 不 丢失 信息 ,其 吸引 子 是 全 体 构 型 , 维 数 为 1。 
知 吸引 子 只 包含 有 穷 构 型 ， 则 它 的 维 数 是 零 。 这 两 种 吸引 子 具 有 整数 维 数 ， 它 们 不 是 分 形 。 


有 些 规则 的 吸引 子 是 分 形 ， 具 有 分 数 维 数 。 规 则 的 不 可 逆 性 越 强 ， 则 轨迹 合并 越 严重 ， 执 行 
过 程 中 信息 擦 除 越 多 , 吸引 子 的 分 数 维 数 越 小 。 若 不 可 道 性 强 到 一 定 程度 ， 则 吸引 子 的 维 数 降 为 
零 , 只 包含 有 穷 构 型 。 规 则 的 不 可 逆 性 越 强 的 , 将 导致 构 型 的 概率 分 布 越 集中 , 吸引 子 的 入 越 低 。 


A.2.4 4 类 规则 与 混沌 边缘 


Stephen Wolfram 研究 了 ECA 各 种 规则 的 行为 ， 他 将 规则 分 为 4 类 。4 类 规则 的 不 可 逆 程 度 
不 同 ， 它 们 的 吸引 子 有 不 同 的 分 数 维 数 ， 表 现 出 不 同 的 行为 。 本 节 用 例子 分 别 介绍 这 4 个 类 别 。 


1. 第 一 类 规则 


规则 160 属于 第 一 类 规则 ， 它 的 运行 如 图 A-10 所 示 。 初 始 构 型 随机 ， 网 格 条 带 长 度 800， 
运行 400 步 , 可 以 看 到 在 规则 160 下 ,ECA 迅速 演化 成 全 零 构 型 , 落 了 片 白 茫茫 大 地 真 干净 。 这 
就 是 第 一 类 规则 的 行为 特点 , 它们 最 终 将 演化 为 全 0 或 全 1 构 型 。 第 一 类 规则 的 吸引 子 只 包含 一 
个 构 型 ， 维 数 和 炉 都 为 零 。 第 一 类 规则 具有 高 度 规律 性 ， 它 们 迅速 消除 了 系统 的 随机 性 。 第 一 类 
规则 是 信息 擦 除 能 力 最 强 、 轨 迹 合 并 最 严重 、 消 耗 能 量 最 多 、 最 终 的 炉 最 低 的 系统 。 


人 


re 


图 A-10 第 一 类 规则 的 例子 : 规则 160 
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2. 第 二 类 规则 


规则 108 属于 第 二 类 规则 , 它 的 运行 如 图 A-11 所 示 (运行 800 步 )。 第 二 类 规则 形成 被 空白 


〈《 零 值 ) 隔 开 的 一 些 区 域 , 这 些 区 域 或 者 稳定 在 一 种 局 部 构 型 上 , 或 者 在 若干 局 部 构 型 之 间 循 环 ， 


形成 类 似 梯子 格 的 形态 。 


第 二 类 规则 的 吸引 子 包含 有 穷 构 型 ， 维 数 为 零 。 在 第 二 类 规则 下 ,每 个 元 胞 的 最 终 值 只 受到 


它 的 有 限 邻 域内 元 胞 的 初始 值 影响 , 也 就 是 说 , 一 个 元 胞 取 不 同 初始 值 的 影响 不 会 扩散 到 整个 网 
格 ， 而 只 能 产生 局 部 影响 。 改 变 一 个 元 胞 的 初始 值 ， 后 续 的 演化 只 受到 有 限 的 影响 。 若 两 个 初始 


构 型 差异 极 小 ， 则 它们 后 续 的 运行 也 保持 较 小 的 差异 。 第 二 类 规则 对 初始 条 件 不 敏感 。 


门 ml ll i | 有 


图 A-11 第 二 类 规则 


3. 第 三 类 规则 


| 


的 例 


i 


子 : 


则 108 


Er 


规则 126 属于 第 三 类 规则 , 它 的 运行 如 图 A-12 所 示 ( 运行 800 步 ), 规 则 126 的 行为 很 复杂 ， 
运行 中 构 型 始终 保持 较 大 的 随机 性 。 可 以 看 到 有 一 些 连续 的 零 值 (空白 ) 突然 形成 , 但 马上 被 周 
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围 的 随机 区 域 吞 哗 , 形成 图 中 大 大 小 小 的 倒 三 角 。 这 类 规则 的 随机 性 过 高 ， 任 何 有 序 结构 都 不 能 
持久 ， 系 统 保持 较 高 的 峭 。 第 三 类 规则 接近 可 着 系统 ， 吸 引子 的 维 数 接近 1。 


图 A-12 第 三 类 规则 的 例子 : 规则 126 


如 果 初 始 构 型 只 有 一 个 元 胞 的 值 为 1， 其 余 元 胞 的 值 为 0， 则 规则 126 下 的 运行 图 如 图 A-13 
所 示 ， 该 运行 图 也 是 一 个 分 形 ， 具有 自 相 似 性 。 在 第 三 类 规则 下 ,一 个 元 胞 的 影响 匀速 扩散 到 无 
穷 远 处 。 反 过 来 说 ， 只 要 时 间 够 长 ， 一 个 元 胞 的 值 会 受到 任意 远 处 的 元 胞 的 初始 值 的 影响 。 初 始 
构 型 的 微小 变化 在 一 定时 间 后 会 导致 运行 轨迹 的 巨大 差异 。 第 三 类 规则 表现 出 对 初始 条 件 的 敏感 
性 ， 它 们 的 行为 是 混沌 的 ( chaotic )。 
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图 A-13 ”从 只 有 一 个 非 零 元 胞 的 初始 构 型 开始 按 规则 126 运行 


第 三 类 规则 具 


( chaotic attractor )。 


分 形 吸 引子 ,分 形 吸引 子 又 称奇 异 
第 三 类 规则 对 应 连 


续 动 力 系 统 中 的 混沌 系统 


(x%,y, 如 是 点 在 三 维 相 空 间 中 的 位 置 。 点 在 相 空 间 中 某 个 位 置 的 速度 向 量 (党 


( A.4 ) 确定 ，o、p 和 B 是 三 个 预 设 参 数 。 点 根据 这 个 简单 的 非 线 性 微 


瞬 态 过 后 被 吸引 到 洛 伦 兹 吸引 子 上 。 洛 伦 兹 吸引 子 是 奇异 吸引 子 ， 如 
维 空间 中 的 分 形 ， 豪 斯 多 夫 维 数 是 2.332。 


dx dy 
dt dt 


数 分 方程 组 在 相 空 


(A. 


dz 
dt 


s 间 中 运 


图 A-14 所 示 ， 


吸引 子 ( strange attractor ) 或 混沌 吸引 子 
， 例 如 洛 伦 效 (Lorenz ) 系统 : 


4) 


学) 由 方程 组 


云 动 ， 


它 是 一 人 1 
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图 A-14 洛 伦 效 吸引 子 


若 两 个 点 在 相 空 间 中 的 初始 位 置 存在 微小 差异 , 按 洛 伦 兹 方程 运动 一 段 时 间 后 , 它们 的 位 置 
将 存在 巨大 差异 ,混沌 系统 具有 长 期 不 可 预测 性 一 一 初始 状态 的 微小 差异 随 着 时 间 以 指数 速率 增 
长 ， 这 就 是 所 谓 “ 蝴 恕 效应 ”。 “蝴蝶 效应 ”一 词 常 被 误 用 : 并 非 蝴蝶 翅膀 扇 出 的 微小 气流 最 终 演 
变 成 了 风暴 , 而 是 蝴蝶 扇 或 者 不 扇 翅 膀 所 造成 的 初始 状态 的 微小 差异 ,导致 最 终结 果 产 生 巨大 差 
异 一 一 有 或 者 没有 风 容 。 


初始 位 置 的 坐标 可 能 具有 无 穷 精 度 ， 例 如 无 理 数 ， 所 以 混沌 表明 : 即便 对 于 确定 性 的 系统 ， 
长 期 的 预测 也 是 不 可 能 的 。 混 沌 系统 正如 怀特 海 所 说 :“ 你 可 以 期 待 明天 太阳 从 东方 升 起 ,但 你 
不 知道 风 将 从 何方 吹 来 。”(《 科 学 与 近代 世界 》) 


第 三 类 规则 下 的 ECA 是 混沌 系统 ， 它 展现 出 对 初始 条 件 的 极端 敏感 性 和 长 期 行为 不 可 预测 
生 : 无 论 两 个 初始 构 型 多 么 相似 , 一 定时 间 后 它们 后 续 的 演化 将 存在 指数 级 的 差异 。 混沌 行为 阻 


京 
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止 持久 复杂 结构 的 形成 。 自 然 界 存在 疑似 第 三 类 规则 的 现象 , 例如 贝壳 随 着 生长 形成 的 色素 沉积 
图 案 ， 如 图 A-15 所 示 。 


A 


CAA 


图 A-15 贝壳 的 色素 沉积 


4. 第 四 类 规则 


规则 110 属于 第 四 类 规则 ， 它 的 运行 如 图 A-16 所 示 (运行 1200 步 )。 第 四 类 规则 的 吸引 子 
的 维 数 介 于 第 二 类 和 第 三 类 规则 之 间 。 第 四 类 规则 下 ，ECA 在 瞬 态 能 够 自发 形成 一 些 结构 ， 这 
些 结构 比 第 二 类 规则 的 结构 更 复杂 , 比 第 三 类 规则 的 空白 区 域 更 持久 。 这 些 结构 以 复杂 的 方式 改 
变 自身 形态 ,还 可 以 沿 着 网 格 运动 , 结构 之 间 还 可 以 发 生 复杂 的 交互 。 它 们 是 生命 游戏 中 那些 复 
杂 结 构 的 一 维 对 应 物 。 


从 随机 中 自发 形成 并 维持 复杂 的 结构 ， 这 个 现象 称 为 “ 自 组 织 ”( self organization )。 这 些 复 
杂 结 构 是 耗 散 结 构 ， 耗 散 结 构 与 外 界 发 生 能 量 和 物质 交换 ,在 一 定时 间 内 维持 自身 的 秩序 。 耗 散 
结构 的 产生 需要 一 定 的 环境 条 件 ， 以 ECA 来 说 ， 完 全 可 首 的 规则 是 烂 最 大 的 平衡 态 ， 第 三 类 规 
则 接近 平 衔 态 ， 灶 仍 然 过 大 ， 第 一 、 二 类 规则 距离 平 衔 态 过 远 ， 缺 乏 足 够 的 随机 性 。 耗 散 结构 只 
能 产生 于 第 二 类 规则 ， 即 离开 平衡 态 不 太 远 的 混沌 边缘 (edge of chaos )。 
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图 A-16 第 四 类 规则 的 例子 : 规则 110 


A.3 灵机 与 可 计算 性 


本 节 介 绍 图 灵机 和 可 计算 性 等 概念 , 并 考察 元 胞 自动 机 能 力 的 上 限 以 及 它 能 否 达 到 这 个 上 限 。 
图 灵机 (Turing machine ) 是 Alan Turing 提出 一 种 假想 的 机 器 ， 它 是 一 种 形式 化 定义 “计算 ”的 
模型 。 想 一 下 在 我 们 草稿 纸 上 计算 一 个 乘法 的 过 程 : 首先 将 “ 竖 式 ” 写 在 纸 上 ， 然 后， 从 某 个 位 
置 开始 ， 根 据 看 到 的 符号 按照 规则 ( 乘法 表 ) 写 下 新 的 符号 ， 之 后 移动 视线 到 纸 上 的 其 他 位 置 ， 
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同时 大 脑 还 需要 记忆 一 些 信息 : 当前 是 否 存 在 进位 ， 进 到 高 位 的 数字 是 什么 ,等 等 。 进 行 几 轮 动 
作 后 计算 过 程 结 束 ， 在 纸 上 留 下 计算 结果 。 图 灵机 模型 就 是 要 模拟 类 似 的 过 程 。 


A.3.1 图 灵机 


将 一 台 图 灵机 记 为 M, M 具 有 一 个 有 穷 状态 集 5, 任意 时 刻 M 处 于 s 中 的 某 个 状态 : se 5。s 中 
有 一 个 状态 称 作 开始 状态 , 记 为 ssart e 5.5 有 一 个 子 集 称 作 接 受 状态 集 , 记 为 Saccept c SSaceept 中 
的 状态 称 为 接受 状态 。S 还 有 一 个 子 集 称 作 拒绝 状态 集 ， 记 为 Sweet c 5。Sieject 中 的 状态 称 为 拒 
绝 状态 。Ssccept 和 Sieject 不 相交 ， 即 Sooope n Scoject = 8。 也 就 是 说 一 个 状态 不 能 既是 接受 状态 又 
是 拒绝 状态 。 


M 有 一 个 有 穷 的 字符 集合 7， 例如 2 = {QB,y} 或 7 = {01j。 令 到 是 集合 ， 它 的 元 素 是 所 有 由 
有 穷 个 2 中 的 字符 连接 成 的 字符 串 。 对 于 2 = {@,B,Y} 来 说 ， 所 有 由 有 穷 个 a、B 或 y 连 接 成 的 字符 
串 w 都 属于 ,例如 w = wapy。 字 符 串 wo 包含 的 字符 个 数 是 它 的 长 度 。 长 度 为 零 的 字符 串 称 为 空 


ner i PA 


字符 串 (null string )， 空 字符 串 也 属于 2*。 


MM 有 一 个 无 限 长 的 带 ( tape ), 带 被 分 成 一 个 个 单元 格 ( cell ), 每 个 单元 格 上 可 以 写 一 个 字符 。 
M 有 一 个 读 写 头 ， 总 是 位 于 带 的 某 个 单元 格 之 上 。 读 写 头 可 以 对 当前 单元 格 进行 读 和 写 ， 还 可 以 
沿 着 带 左右 移动 ， 但 一 次 只 能 移动 一 个 单元 格 。 人 允许 在 带 上 出 现 的 全 部 字符 构成 “ 带 字 符 集 ”， 
记 为 PP。7T 包含?: 卫 2。T 还 可 以 包含 2 中 没有 的 字符 ， 这 些 字 符 不 能 用 来 构造 输入 字符 串 w， 
但 可 以 被 M 在 带 上 读 和 写 。T 至 少 应 包含 一 个 > 中 没有 的 字符 一 一 空白 字符 ( 注意 不 是 空 字符 串 ， 
而 是 一 个 表示 空白 的 字符 )。 


在 运行 的 每 一 步 ，M 根 据 当 前 状态 和 读 写 头 下 的 字符 , 擦 除 当前 单元 格 的 旧 字 符 并 写 下 某 个 
新 字符 , 将 读 写 头 向 左 或 右 移动 一 个 单元 格 , 进入 某 个 新 状态 ( 新 状态 也 可 以 就 是 本 来 的 状态 )。 
决定 M 如 何 动 作 的 规则 就 是 M 的 转移 函数 8:5 x 一 3xPx fleftrightj，x 表 示 笛 卡尔 积 ， 即 由 
多 个 集合 所 有 元 素 形成 的 所 有 可 能 元 组 。 若 6(si,a)] = (ss B,right) ， 则 当 M 处 于 状态 s; 且 读 写 头 
下 单元 格 的 字符 是 wk 时 ， 擦 掉 w 写 下 8 ， 读 写 头 向 右 〈right ) 移动 一 格 ， 进 入 状态 ss 。7- 元 组 
M = (S, sstarb Saccepb Srejecb 马 也 6) 就 定义 了 一 台 图 灵机 M ， 不 同 7- 元 组 定义 不 同 的 图 灵机 。 


要 启动 M， 首 先 将 输入 字符 串 w E 2* 写 在 带 上 的 任意 位 置 ， 带 的 其 余 单元 格 都 是 空白 字符 。 
令 M 的 读 写 头 对 准 w 的 第 一 个 字符 ,并 让 M 处 于 开始 状态 sstart， 这 时 MM 就 开始 一 步 一 步 地 运行 : 
读 字符 、 覆 写字 符 、 移 动 读 写 涉 、 进 入 新 状态 ,然后 再 重复 …… 直 到 M 进 入 某 个 接受 状态 或 拒绝 
状态 ， 这 时 MM 停机 。 如 果 进 入 的 是 接受 状态 ， 则 MM 接受 输入 字符 串 w; 如 果 进 入 的 是 拒绝 状态 ， 
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则 M 拒 绝 w。 除 这 两 种 情况 外 还 有 第 三 种 情况 : M 永 远 不 停机 一 一 它 既 不 进入 接受 状态 也 不 进入 
拒绝 状态 ， 而 是 一 直 运 行 下 去 。 后 两 种 情况 合 称 M 不 接受 w。 注 意 “ 接 受 、 拭 绝 、 不 接受 ”三 者 
的 区 别 : 对 于 某 输入 字符 串 w e 3*, M 要 么 接受 它 , 要 么 不 接受 它 。 如 果 M 不 接受 w, 有 可 能 是 M 停 


机 并 拒绝 w ， 也 有 可 能 是 M 不 停机 。 图 灵机 的 示意 图 如 图 A-17 所 示 。 


一 个 语言 L( language ) 是 3* 的 一 个 子 集 ， 即 L c 3*。 空 集 b 是 


图 A-17 


图 灵机 示意 


空 语 言 。 史 本 身 


也 是 一 个 语言 ， 它 包含 字符 集 2 上 所 有 可 能 的 字符 串 。 可 被 图 灵机 M 接 受 的 所 有 字符 串 是 一 个 语 
言 ， 称 为 被 M 识 别 的 语言 ， 记 作 Ly。 对 于 w e ZLw， 大 将 w 作 为 M 的 输入 ，M 将 进入 接受 状态 而 停 
机 ; 对 于 w Fg Ly， 若 将 w 作 为 M 的 输入 ，M 将 进入 拒绝 状态 而 停机 或 者 永 不 停机 ， 即 MM 不 接受 w。 


一 台 图 灵机 M 可 以 被 编码 为 
含有 穷 个 状态 , 其 中 哪个 是 开始 状态 、 哪 些 


个 字符 串 族 。 放 以 某 种 格式 编码 M 的 7- 元 组 。M 的 状态 集 5 只 包 
属于 接受 状态 以 及 哪些 属于 拒绝 状态 都 容易 标记 。 输 


和 人 字符 集 2 和 人 带 字符 集 F 也 都 是 有 穷 集合 。 规 则 6 的 定义 域 和 值 域 都 是 有 穷 离散 集合 。 所 以 只 要 定 


义 好 格式 ，M 就 可 以 用 一 


图 灵机 : 


0,1,+ 
0,1,+,=，。 
1#0:0:L:2 
2#0:0:R:q 
3#0:0:R:3 
4#0:0:R:4 
5#0:32 7 
6#0:.:L:b 
7#0:0:L:7 
8#0:0:L:8 


TE2 
1:1:R:q 
1:1:R:3 
1: RA 
A :8 
bl ee 
:7 
1:1:L:8 


+:+:L:2 
+:+:R:q 
+:+:R:3 
+:+:R:4 


+:+:L:6|=: 
+:+:R:q|=: 
+:+:L:9|=: 
+:+:L:al|=: 


他 后 


卜 子 付 和 9 


: :R:q#1#0#0 


:R:q|:=:R:3#0#0#0 


: :L:5#0#0#0 
: :L:f#0#0#0 
: :R:q#0#0#0 
: :R:q#0#0#0 
: :R:q#0#0#0 
: :R:q#0#0#0 


扩编 码 。 如 下 所 示 就 是 作者 按照 自 定义 的 一 种 格式 编码 的 一 台 
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9#0:.:L:b|1:.:L:c|+:+:R:q|=:=:L:b|.:.:L:9|::R:q#0#0#0 
a#0:.:L:d|1:.:L:el+:+:R:q|=:=:L:d|.:.:L:al::R:q#0#0#0 
b#0:0:L:b|1:1:L:b|+:+:R:q|=:=:L:b|.:.:R:q|:0:R:3#0#0#0 
c#0:0:L:c|1:1:L:c|+:+:R:q|=:=:L:c|.:.:R:q|:1:R:3#0#0#0 
d#0:0:L:d|1:1:L:d|+:+:R:q|=:=:L:d|.:.:R:q|:1:R:3#0#0#0 
e#0:0:L:e|1:1:L:e|+:+:R:q|=:=:L:e|.:.:R:q|:0:R:4#0#0#0 
f#0:.:L:h|1:.:L:il+t:+:L:g|=:=:R:q|.:.:L:f|::R:q#0#0#0 
g#0:.:L:1|1:.:L:m|+:+:R:q|=:=:L:p|.:.:L:g|::R:q#0#0#0 
h#0:0:L:h|1:1:L:h|+t:+:L:j|=:=:R:q|.:.:R:q|::R:q#o#0#0 
i#0:0:L:i|1:1:L:i|+t:+:L:k|=:=:R:q|.:.:R:q|::R:q#0#0#0 
j#0:.:L:1|1:.:L:m|+:+:R:q|=:=:L:1|.:.:L:j|::R:q#0#0#0 
k#0:.:L:n|1:.:L:ol+t:+:R:q|=:=:L:n|.:.:L:k|::R:q#0#0#0 
1#0:0:L:1|1:1:L:1|+:+:R:q|=:=:L:1|.:.:R:q|:1:R:3#0#0#0 
m#0:0:L:m|1:1:L:m|+:+:R:q|=:=:L:m|.:.:R:q|:0:R:4#0#0#0 
n#0:0:L:n|1:1:L:n|+:+:R:q|=:=:L:n|.:.:R:q|:0:R:4#0#0#0 
o#0:0:L:0|1:1:L:o|+:+:R:q|=:=:L:0|.:.:R:q|:1:R:4#0#0#0 
p#0:0:L:p|1:1:L:p|l+:+:R:q|=:=:R:q|.:.:R:q|:1:R:s#0#0#0 
q#0:0:R:q|1:1:R:q|+:+:R:q|=:=:R:q|.:.:R:q|::R:q#0#0#1 
r#0:0:R:r|1:1:R:r|+:+:R:r|=:=:R:r|.:.:R:r|::R:r#0#1#0 
Ss#0:0:R:s|1:1:R:s|+:+:R:s|=:=:R:s|.:.:R:s|::L:t#0#0#0 
t#0::L:t|1::L:t|+::L:t|=::L:r|.::L:t|::R:q#0o#0#0 
编码 的 第 

二 行列 出 了 带 字符 集中 的 字符 : 6。、1、+、= 和 .， 默认 

态 集 和 规则 。 每 行 表示 5 中 的 一 人 


8/1 标识 该 状态 J 是 开始 状态 ; 第 4 字段 标识 该 状态 
第 2 字段 描述 规则 6。56 的 描述 用 | 分 隔 成 段 ， 


否 是 拒绝 状态 o 


一 行列 出 了 输入 字符 集中 的 字符 : 6。、1 和 +。 逗 号 不 算 ， 它 是 编码 的 分 隔 符 。 第 


字段 ， 


是 否 是 接受 状态 ; 第 5 字段 标识 该 状态 是 


用 空格 为 空白 字符 。 从 第 三 行 开始 编码 状 


第 1 字 下 第 3 字段 用 


每 一 段 再 用 :分 隔 ， 表 示 若 M 处 于 该 


状态 且 读 到 什么 字符 时 写 下 什么 字符 、 向 什么 方向 (UVR ) 移动 读 写 头 ， 并 进入 哪个 新 状态 。 


比如 其 中 第 一 行 描 述 状态 1， 它 是 开始 状态 ， 不 是 接受 状态 也 不 是 拒绝 状态 。 该 图 灵机 若 处 


于 状态 1 且 读 到 字符 6 时 ， 履 写 下 字符 8， 
推断 一 下 这 台 


每 = 各 


Turing machine, UTM )。 UTM 的 输入 


图 灵机 的 功能 。 


图 灵机 由 7- 元 组 确定 ， 执 行 某 种 打 


向 左 移动 读 写 头 并 进入 状态 2。 读 者 可 以 根据 该 编码 


地 殊 的 计算 。 可 以 构建 一 种 通用 图 灵机 (universal 


某 台 图 灵机 M 


的 编码 政和 某 个 字符 串 w 连 接 而 成 x UTM 从 族 


中 解析 出 M 的 行为 ， 并 模拟 MM 在 输入 w 上 的 动作 ， 最 终 产 生 和 MM 一 样 的 结果 : 接受 、 拒 绝 或 永 不 
6 够 执行 任何 特殊 图 灵机 的 功能 ,我 们 使 用 的 可 编程 计算 机 是 UTM 的 一 种 实现 , 放 相 
当 于 程序 ，w 相 当 于 程序 的 输入 。Roger Penrose 在 《皇帝 新 脑 》 中 构建 了 一 个 UTM 并 将 编码 印 在 
了 书页 中 ， 如 图 A-18 所 示 。 


停机 。UTM 色 
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图 A-18 Roger Penrose 构建 通用 图 灵机 的 编码 
A.3.2 ”图 灵 - 印 奇 论题 与 图 灵 完 


图 灵机 不 仅仅 模拟 “计算 ”， 实 际 它 定 义 “ 计 算 "。 若 要 定义 计算 ， 当 然 首先 得 要 求 图 灵机 能 
执行 人 们 常识 中 的 计算 ， 例 如 2x3 = 6。 如 果 将 “10x11”( 即 二 进 制 的 2 x 3 ) 作为 输入 字符 串 
提供 给 一 台 图 灵机 ， 这 台 图 灵机 经 过 一 系列 执行 后 停机 ， 并 在 带子 上 留 下 字符 串 “110”( 二 进 制 
的 6)， 它 就 计算 了 2 x 3 = 6。 上 一 节 举 例 的 那 台 图 灵机 的 功能 是 计算 二 进 制 加 法 。 


一 种 计算 模型 可 以 被 另 一 种 计算 模型 模拟 , 是 指 第 一 种 计算 模型 能 够 执行 的 每 一 种 操作 ,都 
可 以 用 第 二 种 计算 模型 的 操作 在 常数 步 数 内 实现 。 这 种 情况 称 第 一 种 计算 模型 的 计算 能 力 弱 于 第 
二 种 计算 模型 。 迄今 为 止 , 人 类 构造 的 所 有 计算 模型 都 能 被 图 灵机 模拟 。 任何 计算 装置 , 如 算盘 、 
智能 手机 、 笔 记 本 、 超 级 计算 机 等 ， 都 不 能 超越 图 灵机 的 计算 能 力 ， 这 就 是 “图 灵 - 印 奇 论题 ” 
( Turing-Church thesis )。 


“图 录 - 印 奇 论题 ”是 一 个 没有 得 到 证 明 的 假说 , 但 是 越 来 越 多 的 验证 使 人 们 越 来 越 确信 这 个 
假说 是 真 的 。 有 些 模 型 的 计算 能 力 弱 于 图 灵机 ， 即 图 灵机 可 模拟 它们 ， 但 它们 无 法 模拟 图 灵机 。 
有 些 模 型 等 价 于 图 灵机 ， 它 们 与 图 灵机 可 以 互相 模拟 。 称 计算 能 力 等 价 于 图 灵机 的 模型 是 “图 灵 
完备 ”( Turing-complete ) 的 ， 例 如 汉 “' 诺 依 曼 结构 计算 机 、 印 奇 的 4 演算 等 。 后 文 我 们 会 看 到 部 
分 ECA 规则 是 图 灵 完 备 的 。 
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A.3.3 ”递归 语言 与 可 计算 性 


对 任何 输入 字符 串 都 能 够 停机 的 图 灵机 称 为 判定 器 ( decider )。 对 于 任意 输入 字符 串 ， 判 定 
器 最 终 一 定 进入 接受 状态 或 拒绝 状态 , 不 会 永远 运行 下 去 。 有 一 类 语言 能 够 被 判定 器 识别 ,这 类 
语言 称 为 递归 语言 (recursive language )。 北 归 语言 是 语言 的 集合 ， 对 于 该 集合 中 的 每 一 个 语言 ， 
都 存在 一 个 判定 器 识别 它 。 那么 是 否 存 在 递归 语言 集合 之 外 的 语言 ， 即 无 法 被 判定 器 识别 的 语言 ? 


答案 是 肯定 的 。 设 想 下 面 的 语言 : 


Luniv = {( w) | w 6 Lu} (A.5) 


其 中 , 语言 Luniv 的 元 素 是 形 如 ( 斤 ,w) 的 字符 串 。( 斤 ,w) 表 示 把 两 个 字符 串 碑 和 w 用 某 种 分 隔 符 连接 
起 来 ,。 放 是 某 台 图 灵机 M 的 编码 , w 是 某 个 能 被 M 接 受 的 字符 串 , 即 w e Ly。 也 就 是 说 , 几 属 于 Luniv 
的 字符 串 都 是 由 两 个 字符 串 连 接 而 成 : 第 一 个 是 某 台 图 灵机 MM 的 编码 下， 第 二 个 是 某 个 属于 语言 
Lu 的 字符 串 w。 如果 输入 字符 串 格式 不 合法 , 即 不 是 某 个 放 连 接 某 个 w, 则 该 字符 串 不 属于 Luniv。 
如 果 格 式 合法 但 是 w ¢ Lm ， 则 该 ( 表 ,w) 也 不 属于 Luniv。 


Luniv 称 作 “ 通 用 语言 "， 因 为 它 能 告诉 我 们 任何 一 台 图 灵机 是 否 接 受 任何 一 个 字符 串 。 若 一 
台 图 灵机 的 编码 与 一 个 字符 串 的 连接 属于 Luniy, 则 表示 该 图 灵机 接受 该 字符 串 , 否则 该 图 灵机 不 


> /rr dD 


接受 该 字符 串 。 


现在 假设 Luniy 属 于 递归 语言 ， 则 存在 一 个 判定 器 能 够 识别 它 ， 记 为 了 HH。 当 ( 矿 ,w) e Luniv， 即 
当 ( 放 , w) 格 式 合法 且 w e Ly 时 , 玉 接 受 ( 琶 ,ww); 当 ( 屋 ,w) & Luniv, 即 ( 必 ,w) 格 式 不 合法 或 w 4g Lm 时 ， 
卫 拒 绝 ( 族 ,w)。 对 五 稍 加 改造 ， 把 它 的 接受 状态 和 拒绝 状态 互 换 身份 ， 得 到 新 的 判定 器 H'。 于 是 
当 ( 有 所,w) e Luniv 时 ,HH' 拒 绝 ( 放 ,w); 当 ( 硫 ,w) 4 Luniv 时 ，H' 接 受 (人 ,ww)。 


接着 再 对 HH' 做 进一步 改造 ， 得 到 H”。H" 的 输入 字符 串 是 一 台 图 灵机 MM 的 编码 让。H" 首 先 构 
造 字符 串 ( 放 , 放 )， 注意 w 的 位 置 上 现在 是 碑 。 之 后 H” 在 ( 放 , 放 ) 上 模拟 H' 的 行为 ,那么 H" 的 行为 就 
是 : 若 ( 帮 ,六 ) e Luniyv， 则 H" 拒 绝收 ; 若 ( 胡 , 放 ) ¢ Luniy， 则 HH" 接受 放 。 


3 


关键 之 处 到 了 。 如 果 把 H" 自 己 的 编码 扩 ' 输 入 给 H" 会 发 生 什么 ” 当 ( 有 7, 7) € Luniv, 即 当 H” 
接受 到 时 , H" 拒 绝 扣 '; 当 ( 大 有 4 Loniv, 即 当 H" 不 接受 本 时 , H" 接 受 厅 '。 这 里 产生 了 悖 论 ， 
所 以 结论 只 能 是 : 最 初 的 判定 器 刀 不 可 能 存在 。 不 存在 判定 器 能 够 识别 Zuniv， 即 Zuniv 不 属于 递归 


;五 兰 
LH 中 o 


一 个 非 递归 语言 就 是 一 个 不 可 计算 的 问题 、 一 个 超出 了 计算 机 能 力 的 问题 、 一 个 不 能 被 任何 
算法 解决 的 问题 。 波 斯 特 对 应 问题 ( Post correspondence problem ) 就 是 一 个 不 可 计算 的 问题 ， 这 
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是 通过 证 明 它 等 价 于 通用 语言 Luniy 而 证 明 的 。 波 斯 特 对 应 问题 看 上 去 极 像 一 个 叫 人 绞 尽 脑汁 的 算 
法 大 赛 题 目 , 如 果 一 个 编程 天 才 少 年 没有 经 过 可 计算 性 理论 的 学 习 , 他 很 可 能 在 这 道 题目 上 徒劳 
许久 。 


A.3.4 形式 语言 与 自动 机 


可 以 证 明 : 如 果 存 在 非 递归 语言 , 那么 必然 存在 不 能 被 任何 图 灵机 识别 的 语言 一 一 就 是 说 无 
法 构造 一 台 图 灵机 ,接受 属于 该 语言 的 所 有 字符 串 , 且 对 不 属于 该 语言 的 字符 串 拒 绝 或 者 不 停机 。 
下 面 证 明 这 个 结论 。 


如 果 一 个 语言 L 和 它 的 补 集 L = {w | w & 有 都 是 图 录 机 可 识别 的 ， 那么 I 一定 是 递归 语言 。 因 
为 若 识别 7 的 图 灵机 是 Mr , 识别 ZL 的 图 灵机 是 Mz, 则 可 以 构造 一 台新 图 灵机 M , 它 在 输入 字符 串 w 
上 轮流 交 蔡 地 一 步 一 步 模拟 Mr 和 MI。 因 为 w 要 么 属于 ! 要 么 属于 ， 所 以 对 于 w， 要 么 Mr 进入 接 
受 状 态 并 停机 , 要 么 Mz 进入 接受 状态 并 停机 , 于 是 M 终 将 看 到 Mi 或 Mi 之 一 进入 接受 状态 并 停机 。 
这 个 事件 一 旦 发 生 ，M 这 样 做 : 如 果 是 Mi 进入 接受 状态 并 停机 ， 则 MM 进入 接受 状态 并 停机 ; 如 果 
是 Mr 进入 接受 状态 并 停机 , 则 M 进 入 拒绝 状态 并 停机 。 可 以 看 出 M 是 一 个 接受 L 的 判定 絮 ， 即 L 属 
于 递归 语言。 所 以 如 果 L 不 属于 递归 语言 ， 则 必然 L 或 者 L 不 可 被 图 灵机 识别 。 


确实 存在 非 递 归 语 言 ， 如 刚刚 证 明 的 Luwiy， 所 以 确实 存在 不 可 被 图 灵机 识别 的 语言 。Luniy 是 
图 灵机 可 识别 的 ,因为 通用 图 灵机 UTM 接受 Puniv， 则 Puniv 的 补 集 一 一 语言 Zuniv 不 是 图 灵机 可 识 
别 的 。 能 够 被 图 灵机 识别 的 语言 称 作 递归 可 枚 举 语 言 (recursive enumerable language )， 刚 才 证 明 
了 非 递归 可 枚 举 语 言 的 存在 ， 那 么 能 否 显 式 地 构造 一 个 非 递 归 可 枚 举 语 言 呢 ? 


说 一 个 集合 是 “可 列 的 ”( countable )， 是 指 存在 从 自然 数 集 到 该 集合 的 一 一 映射 。 自 然 数 集 
本 身 当 然 是 可 列 的 , 侦 数 集 也 是 可 列 的 ,因为 存在 自然 数 集 与 偶数 集 之 间 的 一 一 映射 :f(m) = 2n。 
整数 集 也 是 可 列 的 ,因为 可 以 依次 列 出 全 部 整数 : 0, 1， 一 1,2, 一 2, 3, 一 3,…， 将 此 数列 中 每 一 个 整 
数 的 位 置 映射 到 该 整数 ， 就 是 一 个 从 自然 数 集 到 整数 集 的 一 一 映射 。 如 果 一 个 集合 可 列 ， 则 该 集 
合 的 基数 (cardinality number ) 是 Xo( 阿 列 夫 零 , 最 小 的 超 限 基数 ), 偶数 集 是 自然 数 集 的 真子 集 ， 
自然 数 集 是 整数 集 的 真子 集 ， 但 它们 的 基数 都 是 No。 


字符 集 2 上 的 全 体 字 符 串 集合 罗 是 可 列 的 。 因 为 可 以 首先 列 出 长 度 为 零 的 字符 串 一 一 空 字 各 
串 ， 再 列 出 全 部 长 度 为 1 的 字符 串 ， 接 着 是 全 部 长 度 为 2 的 字符 串 ， 如 此 下 去 就 可 以 列 出 罗 中 的 
全 部 字符 串 。 图 灵机 MM 既然 可 以 被 编码 为 字符 串 ， 那么 全 体 图 灵机 的 集合 也 是 可 列 的 。 构 造 一 个 
无 穷 行 无 穷 列 的 二 维 矩阵 D ,在 D 的 列 上 依次 标注 全 体 字符 串 wj (j = 1,2,… ), 在 D 的 行 上 依次 标 
注 全 体 图 灵机 Mi (i = 1,2,… )， 如 表 A-2 所 示 。 
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表 A-2 图 灵机 与 字符 串 的 接受 /不 接受 关系 


\ CO1 002 003 04 Ws 
Mi 0 0 1 1 0 
M; 1 1 0 1 0 
M3 0 1 0 1 1 
Ma 1 0 0 1 0 
Ms 1 1 1 0 


D 的 每 一 个 元 素 D; ; 取 1 或 0， 表示 图 灵机 Mi 是 否 接 受 wj。 例 如 : Da4 = 1 表示 图 灵机 Ms 接受 
w4， 而 D3 = 0 表示 图 灵机 M, 不 接受 ws。 第 i 行 上 全 体 为 1 的 列 对 应 的 wj 就 构成 图 灵机 Mi 识别 的 


;五 二 
LH 吾 也 Mio 


D 的 对 角 线 元 素 是 Dix( k = 1 2,… ) .现在 构造 这 样 的 语言 Laas: 若 Dex = 1, 则 令 ox & Laiag; 
若 Dek = 0， 则 令 ok e Laiag。 如 此 构造 的 Laiag 与 每 一 个 Lm 在 wi 上 不 一 致 ， 即 Laiag 不 同 于 任何 图 
灵机 Mi 识别 的 语言 ,也 就 是 说 Loias 是 一 个 不 能 被 任何 图 灵机 识别 的 语言 , 它 不 是 递归 可 枚 举 语 言 。 
Laias 被 称 为 对 角 线 语言 。 


还 有 另 一 种 证 明 存 在 非 递归 可 枚 举 语言 的 方法 。 在 一 个 无 穷 的 /0 串 前 加 一 个 小 数 点 ， 就 形 
成 一 个 [0,1] 区 间 内 的 二 进 制 实数 ,每 一 个 二 进 制 实数 对 应 一 个 语言 : 第 i 位 上 的 10 标记 字符 串 mw; 
是 否 属于 该 语言 。 也 就 是 说 , 可 以 在 全 体 语 言 集合 与 [0, 1] 区 间 实 数 集合 之 间 建 立 一 一 映射 ， 所 以 
全 体 语言 集合 是 不 可 列 的 , 它 的 基数 大 于 Xo。 而 全 体 图 灵机 的 集合 是 可 列 的 ,全体 语言 与 全 体 图 
灵机 之 间 无 法 建立 一 一 映射 ， 于 是 必然 存在 无 法 映射 到 某 台 图 灵机 的 语言 。 


在 递归 语言 集合 的 内 部 还 有 层次 。 知 请 一 位 精通 正则 表达 式 的 程序 员 写 一 个 能 匹配 所 有 回 文 
(palindrome， 例 如 “abracadacarba”) 的 正则 表达 式 ， 也 许 会 浪费 他 很 多 时 间 ， 除 非 他 知道 这 是 
不 可 能 的 。 正 则 表达 式 ( regular expression ) 能 够 接受 或 拒绝 特定 字符 串 ， 即 能 够 识别 一 个 语言 ， 
所 以 它 也 是 一 种 计算 模型 ,正则 表达 式 的 计算 能 力 等 价 于 有 穷 状态 自动 机 ( finite state automaton )。 
对 于 某 个 正则 表达 式 ， 可 以 构造 一 个 有 穷 状 态 自 动机 识别 该 正则 表达 式 识别 的 语言 , 反之 , 对 于 
某 个 有 穷 状态 自动 机 ， 也 可 以 构造 一 个 正则 表达 式 识别 它 的 语言 。 可 以 构造 式 地 证 明 这 个 结论 : 
对 正则 表达 式 的 三 种 基本 操作 构造 对 应 的 有 穷 状 态 自动 机 组 件 ， 反 之 亦 然 ， 本 书 省 略 此 证 明 。 


能 被 有 穷 状态 自动 机 识别 的 语言 属于 正则 语言 ( regular language )。 利 用 人 泵 引 理 ( pumping 
lemma ) 可 以 证 明 回 文 不 属于 正则 语言 ， 所 以 不 可 能 写 出 一 个 匹配 全 部 回 文 的 正则 表达 式 。 本 书 
省 略 和 泵 引 理 的 证 明 。 
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回 文 属于 上 下 文 无 关 语言 (context-free language )， 上 下 文 无 关 语 言 是 正则 语言 的 超 集 。 给 
有 穷 状态 自动 机 添加 一 个 容量 无 穷 ， 但 是 只 能 先入 后 出 访问 的 栈 ( stack )， 它 就 成 为 下 推 自动 机 
( pushdown automaton )。 一 个 上 下 文 无 关 语 言 能 被 一 台 下 推 自动 机 识别 。 大 部 分 计算 机 编程 语言 
都 属于 上 下 文 无 关 语 言 。 上 下 文 无 关 文 法 ( context-free grammer ) 的 计算 能 力 等 价 于 下 推 自动 机 ， 
编译 器 进行 语法 分 析 用 的 就 是 上 下 文 无 关 文法 。 


上 下 文 无 关 语言 是 递归 语言 的 子 集 。 各 类 语言 的 包含 关系 是 : 正则 语言 c 上 下 文 无 关 请 言 c 递 
归 语 言 c 弟 归 可 枚 举 语 言 c 全 部 语言 ， 如 图 A-19 所 示 。 


全 部 语言 


递归 可 枚 举 语 言 


递归 语言 


上 上 下文 无 关 语 言 


正则 语言 


图 A-19 各 类 语言 的 层次 关系 
递归 语言 代表 一 类 问题 对 这 类 问题 存在 算法 给 出 明确 答案 :“ 是 ”或 “ 否 ”。 递 归 可 枚 举 但 
非 递 归 的 语言 代表 另 一 类 问题 , 对 于 这 类 问题 , 如 果 答 案 是 “是 ”, 终 会 知道 ; 如 果 答 案 是 “ 否 ”， 
有 可 能 永远 无 法 知道 。 对 角 线 语言 和 通用 语言 这 样 的 非 递归 语言 ， 代 表 着 无 法 计算 的 问题 。 
A.3.5 ”停机 问题 


停机 问题 (halting problem ) 的 表述 是 : 是 否 存 在 判断 任意 图 灵机 在 任意 输入 字符 串 上 是 否 
停机 的 算法 ? 答案 是 不 存在 。 
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假如 存在 这 样 的 算法 , 记 为 Oracle, 就 可 以 构造 一 个 图 灵机 及 , 当 输 入 字符 串 为 ( 放 ,w) 时 , H 先 
执行 Oracle, 判断 M 在 w 上 是 否 停机 ， 如 果 不 停机 ， 则 有 拒绝 ( 放 , o); 如 果 停 机 ， 则 模拟 M 在 w 上 
的 执行 。 如果 模拟 显示 M 进 入 接受 状态 , 令 且 接受 ( 硫 ,w); 如 果 M 进 入 拒绝 状态 , 令 H 拒 绝 ( 琉 ,w)。 显 
然 ， 图 灵机 五 是 识别 Luniy 的 判定 器 ， 我 们 已 经 知道 这 是 不 可 能 的 ， 所 以 不 存在 算法 Oracle。 


换 一 种 证 明 方 式 : 如 果 存 在 算法 可 以 判断 任意 图 灵机 在 任意 输入 字符 串 上 是 否 停 机 ， 


那么 就 


可 以 设计 这 样 一 台 图 灵机 , 它 首 先 执行 这 个 算法 判断 自己 在 输入 字符 串 上 是 否 停机 。 如 果 


算法 的 


结论 是 停机 ， 则 令 该 图 灵机 进入 一 个 死 循环 永 不 停机 ; 如 果 算 法 的 结论 是 不 停机 ， 则 令 该 图 灵机 
立即 停机 。 于 是 这 台 图 灵机 就 在 它 停 机 的 输入 上 不 停机 ,在 它 不 停机 的 输入 上 停机 ,这 产生 悖 论 。 


A.3.6 规则 110 的 图 灵 完 备 性 


ECA 也 是 一 种 计算 模型 ， 将 输入 数据 以 某 种 格式 编码 为 二 进 制 串 ， 以 该 编码 作为 初始 构 型 


动 ECA,， 若 ECA 进入 一 种 构 型 不 再 变化 则 计算 完成 ， 最 终 的 稳定 构 型 是 计算 结果 的 编码 。 根 


备 的 ? 这 与 具体 的 ECA 规则 有 关 。 


局 
据 图 灵 - 印 奇 论题 ，ECA 可 以 被 图 灵机 模拟 ,但 ECA 是 否 可 以 模拟 图 灵机 ? 即 ECA 是 否 是 图 灵 
完 


第 一 类 规则 不 可 能 是 图 灵 完 备 的 , 它们 对 任何 输入 都 输出 全 0 或 全 1 构 型 。 第 二 类 规则 也 不 


可 能 是 图 灵 完 备 的 , 在 第 二 类 规则 下 , 某 一 个 元 胞 的 值 只 会 受到 它 的 有 限 邻 域内 的 元 胞 的 初始 值 


的 影响 ,要 计算 足够 大 的 二 进 制 数 的 加 法 ,例如 0111…111 或 者 0111…110 加 上 1, 最 右 一 位 是 


1 还 是 0 会 影响 最 左 一 位 的 最 终 值 ， 在 第 二 类 规则 下 这 是 不 可 能 的 。 第 三 类 规则 呈现 混沌 行为 ， 
也 不 大 可 能 是 图 灵 完 备 的 。 最 有 趣 的 是 第 四 类 规则 ， 在 第 四 类 规则 下 ，ECA 在 瞬 态 展现 自 组 织 


行为 ， 能够 形成 复杂 、 稳 定 且 相互 之 间 可 以 交互 的 结构 ， 这 些 结构 很 有 希望 被 用 来 构造 日 
加 噩 等 组 件 。 


秆 钟 、 


沽 


Stephen Wolfram 指出 : 最 有 和 希望 具有 图 灵 完 备 性 的 是 第 四 类 规则 ， 他 甚至 猜测 所 有 第 四 类 
规则 都 是 图 灵 完 备 的 Stephen Wolfram 的 研究 伙伴 Matthew Cook 证 明了 规则 110 是 图 灵 完 备 的 。 


本 章 开 头 介绍 的 生命 游戏 也 已 被 证 明 是 图 灵 完 备 的 , 它 属于 二 维 情况 下 的 第 四 类 规则 。 混 
自 组 织 、 耗 散 结构 和 生命 等 概念 与 可 计算 性 有 着 深刻 的 联系 。 


A.4 分 类 、 训 练 与 吸引 子 分 贫 


元 胞 自动 机 的 运行 使 不 同 初 始 构 型 落 在 不 同 吸 引子 上 。 吸引 子 把 相 空间 中 某 个 区 域内 的 所 有 
构 型 都 吸引 向 自己 ， 这 个 区 域 称 为 该 吸引 子 的 吸引 盆 (basin of attraction )。 用 CNN 模拟 ECA 的 


和 运行， 深度 越 大 则 运行 时 间 越 长 ， 若 运行 时 间 长 过 有 瞬 态 ， 则 构 型 落 在 吸引 子 上 。 对 于 分 


类 问题 ， 
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如 果 不 同 类 别 的 样本 ( 其 特征 向 量 作 为 初始 构 型 ) 随 着 运行 落 在 不 同 吸引 子 上 , 就 可 以 根据 最 终 
的 吸引 子 来 判断 样本 的 类 别 。 


若 改变 ECA 的 规则 ， 则 吸引 子 的 数量 、 形 态 和 性 质 也 会 发 生变 化 ,那么 分 类 结果 就 会 发 生 
变化 。 训 练 CNN 相当 于 改变 它 所 模拟 的 ECA 的 规则 。ECA 的 规则 是 离散 的 、 不 连续 的 ， 无 法 
通过 梯度 下 降 来 训练 ， 一 个 办 法 是 用 原点 斜率 较 大 的 Logistic 函数 来 近似 阶 路 函数 ， 但 这 仍然 存 
在 困难 。 原 点 斜率 较 大 的 Logistic 函数 的 饱和 区 域 大 ， 非 饱和 区 域 的 导数 也 大 ， 容 易 发 生 梯 度 消 
失 或 梯度 爆炸 。 在 这 里 ， 我 们 暂且 将 实际 可 操作 性 放 在 一 边 ， 假 想 存 在 一 种 训练 ECA 规则 的 方 
法 ,着 重 探 究 规则 的 改变 对 吸引 子 的 影响 。 


对 于 ECA 来 说 ， 改 变 规则 就 是 改变 动力 系统 的 参数 。 改 变动 力 系统 的 参数 会 导致 吸引 子 的 
数量 和 性 质 发 生变 化 ， 这 称 为 分 岔 (bifurcation )。 我 们 看 一 个 动力 系统 分 贫 的 例子 ， 考 虑 离散 逻 
辑 斯 蒂 映 射 (logistic map ): 


Xn+1 = TXn(l — xn) (A.6) 


离散 逻辑 斯 带 映 射 在 第 (n + 1 时 刻 的 值 zn+i 取 决 于 第 ?时 刻 的 值 zs 。 和 迭代 执行 该 映射 ， 经 过 
足够 的 步 数 ( 瞬 态 ) 后 ，xn 的 值 就 落 在 吸引 子 上 ,吸引 子 的 性 质 取 决 于 参数 r。 图 A-20 展示 了 当 
7 在 [0, 和 区 间 内 变化 时 吸引 子 的 变化 情况 。 


r 


图 A-20” 倍 周期 分 贫 
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图 A-20 是 这 样 生成 的 : 横 坐 标 是 参数 r 的 取 值 ， 对 每 一 个 r 值 ， 以 0.5 为 初始 值 迭 代 执 行 
式 (A.6 )2300 次 , 前 1800 次 迭代 的 值 不 显示 , 作为 瞬 态 被 忽略 , 将 后 500 次 迭代 的 值 画 在 图 中 。 
坐标 系 中 每 一 条 坚 线 上 的 点 是 在 特定 r 值 下 ， 瞬 态 之 后 500 次 迭代 的 值 ， 它 们 都 在 吸引 子 附近 。 
若 竖 线 看 上 去 只 有 一 个 点 ， 其 实 是 500 个 点 都 落 在 几乎 同一 个 位 置 。 若 竖 线 看 上 去 有 两 个 点 ， 其 
实 是 500 个 点 几乎 都 落 在 这 两 个 位 置 上 一 一 吸引 子 是 一 个 包含 两 个 点 的 循环 ， 即 2- 周 期 极限 环 。 


从 图 中 可 以 看 出 ， 当 r 处 于 [0.0, 3.0] 区 间 时 ， 吸 引子 是 一 个 稳定 点 ， 其 位 置 随 着 > 值 变化 。 此 
阶段 吸引 子 的 性 质 不 变 ， 没 有 分 贫 。 在 r = 3.0 处 ， 吸 引子 由 一 个 稳定 点 变 成 2- 周 期 极限 环 。 在 
7 = 3.45 处 ， 吸 引子 变 成 4 周期 极限 环 。 随 着 7 增 大 ， 吸 引子 依次 成 为 8- 周 期 极限 环 、16- 周 期 极 
限 环 …… 在 r = 3.57 处 ， 吸 引子 终于 成 为 奇异 吸引 子 ， 系 统 表 现 出 混沌 行为 。 


离散 逻辑 斯 蒂 映射 的 吸引 子 的 这 种 变化 称 为 倍 周期 分 岔 (period-doubling bifurcation )。 离 散 
逻辑 斯 蒂 映 射 以 倍 周期 分 岔 的 形式 ， 从 秩序 走向 混沌 的 过 程 称 为 “ 通 向 混沌 的 倍 周期 通途 ” 
(period-doubling cascade to chaos )。 有 趣 的 是 ， 系 统 进 入 混沌 后 偶尔 还 会 恢复 秩序 ， 出 现 稳定 的 
周期 循环 。 图 中 可 见 ， 在 r = 3.83 处 出 现 一 个 3- 周 期 窗口 ， 将 这 个 3- 周 期 窗口 放大 ， 可 以 看 到 系 
统 再 次 经 由 倍 周期 通途 走向 混沌 。 将 图 A-20 的 [3.83, 3.9] 区 间 放 大 ， 如 图 A-21 所 示 。 
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倍 周 期 分 岔 


图 A-21 3- 周 期 窗口 放大 


图 A-21 中 可 以 看 到 ，3- 周 期 极限 环 的 三 个 点 分 别 发 生 三 个 倍 周 期 分 分 。 注 意 混沌 区 域 的 浅 
色 竖 条 ， 那 是 更 小 尺度 上 的 稳定 周期 窗口 ， 它 们 仍 由 倍 周期 通途 回 到 混沌 。 将 图 A-21 中 箭头 指 
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向 的 局 部 放大 ， 如 图 A-22 所 示 。 可 看 到 图 中 又 有 很 多 混沌 中 的 周期 窗口 ， 这 些 周期 窗口 再 发 生 
倍 周期 分 贫 回 到 混沌 。 偶 发 的 秩序 被 混沌 吞噬 ，ECA 第 三 类 规则 偶然 出 现 的 空白 区 域 也 是 同一 
个 现象 。 


0.600 


0.575 
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x 0.500 


0.475 


0.450 
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0.400 


3.840 3.842 3.844 3.846 3.848 3.850 3.852 3.854 3.856 


图 A-22 3- 周期 窗口 中 部 的 倍 周期 分 贫 

发 生 倍 周期 分 岔 的 吸引 子 始 终 只 有 一 个 ， 它 从 稳定 点 变化 为 2, 4, 8, … 等 偶 周 期 极限 环 ， 最 
终 成 为 混沌 吸引 子 。 而 分 类 模型 希望 有 多 个 吸引 子 ,每 个 吸引 子 的 吸引 盆 只 包含 同类 别 的 样本 ( 初 
始 构 型 )。 我 们 再 考察 一 种 又 状 分 岔 (pitchfork bifurcation )， 考 虑 连续 动力 系统 : 


二 (A.7) 


考察 系统 的 静止 点 ， 即 导数 为 零 的 点 。 只 有 静止 点 才 有 可 能 是 吸引 子 ， 因 为 系统 一 定 会 离开 
非 静 止 点 。 当 参数 w < 0 时 ， 系 统 只 有 一 个 静止 点 x = 0， 此 时 车 x > 0， 则 至 < 0， 点 向 负 方向 运 
动 ; 若 x < 0， 则 于 > 0， 点 向 正方 向 运动 ,说明 x = 0 是 一 个 稳定 点 吸引 子 。 当 参数 a > 0 时 ,， 系 
统 有 三 个 静止 点 : x = 0, 士 VE&。 导 数 守 的 情况 是 ; 


当 x < Va 时 ,学 > 0， 点 向 正方 向 运动 ; 
当 -V& <x < 0 时 , 学 <0， 点 向 负 方 向 运动 ; 
当 0 < x < Va 时 ,党 > 0， 点 向 正方 向 运动 ; 


当 x > Va 时 ,学 < 0， 点 向 负 方向 运动 。 


d 


口 
口 
口 
口 
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说 明 x = 0 是 排斥 子 ,x = 士 Va 是 吸引 子 。 吸 引子 随 着 参数 w 的 变化 如 图 A-23 所 示 。, 在 a = 0 处 ， 
静止 点 x = 0 失去 稳定 性 ， 吸 引子 分 裂 成 两 个 : x = 士 V&。 分 贫 图 状 如 叉子， 这 就 是 又 状 分 贫 名 
称 的 由 来 。 


吸引 子 
排斥 子 


图 A-23 ”又 状 分 贫 


当 系 统 只 有 一 个 吸引 子 时 ， 所 有 点 〈 样 本 ) 都 被 吸引 向 这 个 吸引 子 ， 系 统 无 法 区 分 类 别 。 知 
随 着 训练 ,系统 的 参数 发 生变 化 ， 吸 引子 分 裂 为 两 个 ,这 时 相 空间 被 划分 成 两 个 吸引 盆 ， 如 果 两 
类 样本 正好 位 于 不 同 的 吸引 盆 中 ， 则 系统 就 具备 了 区 分 两 个 类 别 的 能 力 。 若 两 个 吸引 子 还 不 够 ， 
那么 使 吸引 子 继续 分 裂 ， 则 相 空 间 被 进一步 更 细 地 划分 。 可 以 想象 当 吸 引子 足够 多 时 ， 相 空间 被 
划分 成 许多 不 相交 的 吸引 盆 , 如 果 每 个 吸引 盆 中 只 包含 同类 别 的 样本 , 则 根据 吸引 子 就 可 以 区 分 


类 别 。 


该 过 程 与 决策 树 的 生长 类 似 , 决策 树 的 叶 节 点 将 样本 空间 划分 成 不 相交 的 区 域 , 可 根据 叶 节 
点 判断 样本 的 类 别 。 动 力 系统 的 吸引 子 分 列 ， 相当 于 决策 树 的 叶 节 点 分 裂 ， 这 两 个 过 程 都 将 样本 
空间 划分 成 更 细 的 区 域 ， 每 个 区 域 包含 更 纯 的 样本 。 预 测 时 , 样本 从 决策 树 的 根 节点 下 降 到 叶 节 
点 需要 时 间 , 动力 系统 经 过 瞬 态 落 入 吸引 子 也 需要 时 间 , 动力 系统 的 运行 时 间 表现 为 神经 网 络 的 
深度 ， 在 这 层 意 义 上 ， 神 经 网 络 的 深度 与 决策 树 的 深度 存在 联系 。 


Sd 


申 经 网 络 的 训练 与 吸引 子 分 命 还 有 一 个 相似 之 处 , 训练 神经 网 络 时 会 观察 到 一 种 常见 的 现象 : 
损失 函数 平缓 地 稳定 一 段 时 间 之 后 突然 下 降 , 然后 再 稳定 一 段 时 间 后 再 次 突然 下 降 , 训练 以 间断 
平衡 式 的 方式 前 进 ， 这 种 突变 很 像 是 由 吸引 子 分 岔 导 致 的 “间断 平 衡 ” 是 古生物 学 家 Stephen 
Gould 提出 的 一 种 生物 演化 模式 ， 在 物种 演化 历史 中 可 以 观察 到 这 种 稳定 和 突变 交 蔡 的 模式 。 损 
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失 函 数 衡 量 神经 网 络 的 适应 度 , 形成 选择 压力 , 神经 网 络 的 训练 与 生物 进化 背后 存在 着 类 似 的 动 
力学 机 制 ， 也 就 不 会 很 奇怪 了 。 


A.5 小 结 


卷 积 层 与 元 胞 自动 机 的 相似 性 是 显而易见 的 一 一 它们 都 根据 局 部 邻 域 的 值 确定 中 心 点 的 值 。 
多 个 相同 卷 积 层 的 前 向 传播 可 以 模拟 元 胞 自动 机 的 运行 ,我 们 基于 此 做 出 了 一 些 推测 。 在 此 , 深 
度 有 了 一 个 意义 : 运行 时 间 。 深 度 越 大 ， 则 其 模拟 的 元 胞 自动 机 运行 越久 。 元 胞 自动 机 的 第 四 类 
规则 在 瞬 态 具有 自 组 织 行为 ， 能 够 涌现 复杂 而 持久 的 结构 ， 这 些 结构 之 间 能 够 交互 ,( 可 能 ) 具 
备 图 灵 完 备 性 。 多 卷 积 层 需要 足够 的 深度 来 模拟 足够 的 运行 时 长 , 让 元 胞 自动 机 有 充足 的 时 间 完 
成 计算 。 

卷 积 层 的 训练 改变 卷 积 核 的 参数 , 这 相当 于 调整 其 所 模拟 的 元 胞 自动 机 的 规则 。 训 练 过 程 调 
整 规则 的 不 可 逆 程 度 ， 使 系统 离开 接近 平衡 态 的 第 三 类 规则 ,但 又 不 至 于 离开 太 远 而 落 入 第 一 、 
二 类 规则 。 训 练 过 程 需要 将 规则 调整 至 第 四 类 ， 在 混沌 边缘 寻找 能 够 完成 分 类 任务 的 动力 系统 。 
我 们 可 以 观察 到 ,训练 过 程 的 确 会 呈现 间断 平衡 的 态势 。 从 优化 损失 函数 的 角度 看 ,这 是 梯度 下 
降 遇 到 平缓 或 陡峭 区 域 ， 从 动力 系统 的 角度 看 ， 这 体现 了 吸引 子 的 渐变 和 分 贫 。 


牛顿 事 士 说 :“ 我 不 杜撰 假说 。” 显然 我 们 杜 摆 的 假说 已 经 够 多 了 ,最 好 到 此 为 止 。 本 章 权 当 
抛砖引玉 ， 只 希望 能 对 读者 有 所 启发 。 深 度 学 习 如 此 惊人 和 奇妙 ,我们 不 可 能 不 对 其 背后 的 深层 
原因 抱 有 好 奇 心 ， 毕 竟 庞 加 莱 说 过 :“ 如 果 世 界 不 是 美的 ， 那 么 它 就 不 值得 认识 ; 如 果 世 界 不 值 
得 认识 ,那么 生命 也 就 不 值得 经 历 。 
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